358 lines
13 KiB
Markdown
358 lines
13 KiB
Markdown
---
|
||
created: "2026-03-21"
|
||
type: project
|
||
status: active
|
||
tags: [trading, multi-agent, openclaw, debugging, optimization]
|
||
---
|
||
|
||
# Trading Agents 调试与优化记录
|
||
|
||
部署后的调试过程、发现的问题、尝试的方案和最终修复。
|
||
|
||
---
|
||
|
||
## 一、问题时间线
|
||
|
||
| 时间 | 事件 | 状态 |
|
||
|------|------|------|
|
||
| 14:00 | 初次部署,4 个辩论 bot 登录成功 | ✅ |
|
||
| 14:05 | 发现 `openclaw status --deep` 超时 | ⚠️ bind=lan 导致 CLI WebSocket 无法连 localhost |
|
||
| 14:09 | 发现 invest-analyst 有 typing 超时 | ⚠️ `google-antigravity-auth` 插件刷日志 |
|
||
| 14:11 | 日志被 Config warning 洪水淹没 | 🔧 删除 `plugins.entries.google-antigravity-auth` |
|
||
| 14:33 | 用户消息被 `no-mention` 拒绝 | 🔍 辩论 bot `requireMention: true` 正常拒绝 |
|
||
| 14:41 | invest-analyst 回复了快速分析而非触发辩论 | 🔍 LLM 选择了捷径 |
|
||
| 14:45 | 测试 @ mention 模式——invest-bear 设 `requireMention: false` 后响应 | ✅ 确认 bot 能工作 |
|
||
| 14:55 | 添加 `groupChat.mentionPatterns`,切换到 ds-* 风格 @ mention 协调 | 🔧 |
|
||
| 15:00 | **NVDA 辩论成功触发!** Bull/Bear/Hawk/Dove 全部参与 | ✅ 辩论质量很高 |
|
||
| 15:00-15:05 | **辩论进入无限循环**——agent 通过 @ mention 不断互相回复 | ❌ 核心问题 |
|
||
| 15:05 | 强制 gateway restart 停止循环 | 🔧 |
|
||
| 15:05 | AMZN 分析——invest-analyst 跳过辩论直接回答 | ❌ LLM 没调用 trade-analyze |
|
||
| 15:22 | 最终修复:移除辩论 agent mentionPatterns + 强化 sessions_send 流程 | 🔧 |
|
||
|
||
---
|
||
|
||
## 二、发现的问题与修复
|
||
|
||
### 问题 1:Config Warning 日志洪水
|
||
|
||
**现象**:`google-antigravity-auth` 插件每隔几秒刷一条 warning,导致所有有用日志被淹没。
|
||
|
||
**修复**:
|
||
```python
|
||
del config["plugins"]["entries"]["google-antigravity-auth"]
|
||
```
|
||
|
||
**教训**:OpenClaw 中已卸载的插件如果还留在 config 里,会持续刷 warning。应及时清理。
|
||
|
||
### 问题 2:@ Mention 模式导致辩论无限循环
|
||
|
||
**现象**:invest-analyst 通过 `@Bull` 在频道中触发 Bull,Bull 回复后 Bear 看到消息并回复,然后 Bull 又回复……无限循环。
|
||
|
||
**根本原因**:@ mention 模式下没有内建的轮次限制。每条消息都会触发对方回复。`REPLY_SKIP` 在 SOUL.md 中写了,但 LLM 没有严格执行。
|
||
|
||
**尝试的方案**:
|
||
|
||
| 方案 | 结果 |
|
||
|------|------|
|
||
| `requireMention: true` + `groupChat.mentionPatterns` | ❌ 循环——agent 在频道中互相 @ |
|
||
| SOUL.md 中写 `REPLY_SKIP` 规则 | ❌ LLM 不严格执行 |
|
||
| **最终方案:移除辩论 agent 的 `groupChat.mentionPatterns`** | ✅ 辩论 agent 不再响应频道消息 |
|
||
|
||
**最终修复**:
|
||
- 辩论 agent(bull/bear/hawk/dove)**没有** `groupChat.mentionPatterns`
|
||
- 辩论 agent 保持 `requireMention: true`
|
||
- 只能通过 `sessions_send` A2A 协议调用
|
||
- invest-analyst 通过 `sessions_send` 明确控制每一轮,手动决定何时停止
|
||
|
||
### 问题 3:LLM 跳过辩论流程
|
||
|
||
**现象**:用户发 `/trade-analyze AMZN`,invest-analyst 直接用 `invest-api` skill 做了快速分析,没有调用 trade-analyze skill 触发辩论。
|
||
|
||
**根本原因**:kimi-coding/k2p5 模型倾向于走捷径——直接回答比调用复杂的多 agent 流程更快。AGENTS.md 中没有足够强的指令区分两种模式。
|
||
|
||
**修复**:
|
||
1. 精简 AGENTS.md,明确触发条件:`/trade-analyze` 或 "要不要买" → **必须使用 trade-analyze skill**
|
||
2. 重写 trade-analyze SKILL.md,加入 `CRITICAL` 级别指令和逐步 sessions_send 调用模板
|
||
3. Skill description 中直接写明 "MUST use sessions_send"
|
||
|
||
### 问题 4:Discord bot 频繁断开
|
||
|
||
**现象**:`health-monitor: restarting (reason: disconnected)` 反复出现。
|
||
|
||
**可能原因**:10 个 Discord bot 同时从一台机器连接,可能触发 Discord rate limit 或 WebSocket 连接限制。
|
||
|
||
**当前状态**:health-monitor 自动重连,功能不受影响,但会导致短暂的消息丢失窗口。
|
||
|
||
---
|
||
|
||
## 三、@ Mention vs sessions_send 对比
|
||
|
||
经过实测验证的结论:
|
||
|
||
| 维度 | @ Mention(ds-* 风格) | sessions_send |
|
||
|------|----------------------|---------------|
|
||
| 触发方式 | 在频道中写 `@智库 请分析...` | 调用 `sessions_send` 工具 |
|
||
| 可见性 | 用户能在频道中看到完整对话 | 后台执行,用户看不到过程 |
|
||
| 轮次控制 | ❌ 无内建限制,容易循环 | ✅ `maxPingPongTurns: 5` 硬限制 |
|
||
| 适用场景 | 人类协调(如大统领派任务给智库) | agent 间自动协作 |
|
||
| 辩论场景 | ❌ 不适合——agent 间 @ 会死循环 | ✅ 适合——编排者控制每轮 |
|
||
|
||
**结论**:ds-* 的 @ mention 模式适合**人类在中间协调**的场景(大统领手动 @ 智库做任务)。但对于**自动化辩论**(agent 自动互相辩论),必须用 `sessions_send`,由编排者手动控制每轮。
|
||
|
||
---
|
||
|
||
## 四、NVDA 辩论验证结果
|
||
|
||
虽然出现了循环问题,但辩论本身的质量很高,验证了架构的可行性。
|
||
|
||
### Bull 核心论点
|
||
- 分析师共识目标价 $269,较现价 $172.70 有 56% 上行
|
||
- RSI 37.8 接近超卖,布林带下轨形成支撑
|
||
- AI 需求周期才刚开始,Blackwell 放量
|
||
|
||
### Bear 核心论点
|
||
- 85% 分析师看多是情绪极端化危险信号
|
||
- MACD 负值且柱状图扩大,下跌动能强化
|
||
- PE 35x 对 $4.2T 市值需要持续 30%+ 增长支撑
|
||
|
||
### Hawk 风控评估
|
||
- 风险收益比 8:1(止损 $160 vs 目标 $269)
|
||
- 建议 15-20% 仓位,现价直接建仓 50%
|
||
|
||
### Dove 风控评估
|
||
- 5% 仓位上限
|
||
- 减仓 25% 锁定利润
|
||
- 更宽止损 $155 避免被正常波动震出
|
||
|
||
### 最终方案(辩论共识)
|
||
- 减仓 25%(8 股)锁定利润
|
||
- 保留 25 股核心仓位
|
||
- 止损 $155
|
||
- 目标 $220-250
|
||
|
||
---
|
||
|
||
## 五、最终配置状态
|
||
|
||
### openclaw.json 关键配置
|
||
|
||
```json5
|
||
{
|
||
agents: {
|
||
list: [
|
||
// invest-analyst: 有 groupChat.mentionPatterns(响应频道消息)
|
||
// invest-bull/bear/hawk/dove: 无 groupChat(只响应 sessions_send)
|
||
]
|
||
},
|
||
tools: {
|
||
agentToAgent: {
|
||
enabled: true,
|
||
allow: ["ds-*系列", "invest-analyst", "invest-bull", "invest-bear", "invest-hawk", "invest-dove"]
|
||
}
|
||
},
|
||
session: {
|
||
agentToAgent: { maxPingPongTurns: 5 }
|
||
}
|
||
}
|
||
```
|
||
|
||
### invest-analyst AGENTS.md 关键逻辑
|
||
|
||
```
|
||
触发条件判断:
|
||
- 简单问题 → 直接用 invest-api skill
|
||
- /trade-analyze 或 "要不要买" → 必须用 trade-analyze skill
|
||
|
||
trade-analyze 流程:
|
||
1. curl 收集 4 类数据
|
||
2. sessions_send → invest-bull(Round 1)
|
||
3. sessions_send → invest-bear(Round 2)
|
||
4. sessions_send → invest-bull(Round 3 FINAL)
|
||
5. sessions_send → invest-hawk
|
||
6. sessions_send → invest-dove
|
||
7. 综合裁决 → BUY/SELL/HOLD
|
||
```
|
||
|
||
### 辩论 Agent 配置
|
||
|
||
- `requireMention: true`(不响应频道消息)
|
||
- 无 `groupChat.mentionPatterns`(不能被 @ mention 触发)
|
||
- 只通过 `sessions_send` A2A 协议被 invest-analyst 调用
|
||
- SOUL.md 中有 `REPLY_SKIP` 规则和字数限制
|
||
|
||
---
|
||
|
||
## 六、Gateway WebSocket 超时修复(根本问题)
|
||
|
||
### 问题
|
||
|
||
`sessions_send` 和 `sessions_spawn` 全部报错:
|
||
```
|
||
gateway timeout after 10000ms
|
||
Gateway target: ws://127.0.0.1:18789
|
||
Source: local loopback
|
||
```
|
||
|
||
所有 session 工具、`openclaw status --deep`、`openclaw gateway call` 都超时。
|
||
|
||
### 根因分析
|
||
|
||
1. Gateway 配置 `bind: "lan"`,监听 `0.0.0.0:18789`
|
||
2. 但 **`127.0.0.1:18789` 实际连不通**(`curl http://127.0.0.1:18789/` 超时,但 `curl http://192.168.68.108:18789/` 成功)
|
||
3. OpenClaw 内部工具默认连 `ws://127.0.0.1:18789`,导致所有 RPC 超时
|
||
4. 同时存在 [v2026.3.13 WebSocket handshake bug](https://github.com/openclaw/openclaw/issues/48167):handshake timeout 只有 3 秒
|
||
|
||
### 修复
|
||
|
||
**修复 1:Systemd 环境变量**
|
||
|
||
在 `~/.config/systemd/user/openclaw-gateway.service` 中添加:
|
||
```ini
|
||
Environment=OPENCLAW_GATEWAY_URL=ws://192.168.68.108:18789
|
||
Environment=OPENCLAW_ALLOW_INSECURE_PRIVATE_WS=1
|
||
```
|
||
|
||
然后 `systemctl --user daemon-reload`。
|
||
|
||
这让 gateway 内部工具通过 LAN IP(而非 localhost)连接,绕过了 loopback 不通的问题。
|
||
|
||
**修复 2:Patch handshake timeout(来自 [PR #47388](https://github.com/openclaw/openclaw/pull/47388))**
|
||
|
||
文件:`~/.nvm/versions/node/v24.13.1/lib/node_modules/openclaw/dist/gateway-cli-CuZs0RlJ.js`(和 `Ol-vpIk7.js`)
|
||
|
||
```javascript
|
||
// 原始(第 7588 行)
|
||
const DEFAULT_HANDSHAKE_TIMEOUT_MS = 3e3;
|
||
// 修改为
|
||
const DEFAULT_HANDSHAKE_TIMEOUT_MS = 10e3;
|
||
```
|
||
|
||
**修复 3:Patch scope grant(来自 [PR #47388](https://github.com/openclaw/openclaw/pull/47388))**
|
||
|
||
同一文件,第 22605 行附近:
|
||
|
||
```javascript
|
||
// 原始
|
||
if (!device && (!isControlUi || decision.kind !== "allow")) clearUnboundScopes();
|
||
// 修改为
|
||
if (!device && (!isControlUi || decision.kind !== "allow")) { clearUnboundScopes(); } else if (!device && decision.kind === "allow") { scopes = ["operator.read"]; connectParams.scopes = scopes; }
|
||
```
|
||
|
||
### 验证
|
||
|
||
修复后 `openclaw gateway call status` 返回正常 JSON,`sessions_spawn` 成功:
|
||
```
|
||
15:49:43 status: "accepted", childSessionKey: "agent:invest-bull:subagent:ad2d265d..."
|
||
15:50:06 [subagent task] bull-AMZN: completed successfully
|
||
```
|
||
|
||
### 注意事项
|
||
|
||
- 这些 patch 在 `npm update openclaw` 后会被覆盖,需要重新打
|
||
- 关注 [PR #47388](https://github.com/openclaw/openclaw/pull/47388) 和 [PR #48950](https://github.com/openclaw/openclaw/pull/48950) 的合并状态
|
||
- 合并后升级即可去掉手动 patch
|
||
|
||
---
|
||
|
||
## 七、最终验证:AMZN 辩论流程
|
||
|
||
### 完整时间线
|
||
|
||
| 时间 (UTC) | 事件 | 状态 |
|
||
|------------|------|------|
|
||
| 15:48:20 | 读取 trade-analyze skill | ✅ |
|
||
| 15:48:36 | 收集 AMZN 数据(curl API) | ✅ |
|
||
| 15:49:13 | metrics + sentiment 数据返回 | ✅ |
|
||
| 15:49:27 | technical + macro 返回 503 | ⚠️ K8s API pod 暂时不可用 |
|
||
| 15:49:43 | `sessions_spawn` → invest-bull | ✅ accepted |
|
||
| 15:50:06 | Bull 完成,结果返回 | ✅ |
|
||
| 15:50:25 | `sessions_spawn` → invest-bear | ✅ accepted |
|
||
| 15:50:53 | Bear 完成,结果返回 | ✅ |
|
||
| 15:51:04 | `sessions_spawn` → invest-bull (final rebuttal) | ✅ accepted |
|
||
| 15:51:08 | 等待 Bull Final + Hawk + Dove... | ⏳ |
|
||
|
||
### 关键确认
|
||
|
||
1. **`sessions_spawn` 成功调用了辩论 agent** ✅
|
||
2. **辩论 agent 在后台执行,不在 Discord 输出** ✅(Discord 已禁用)
|
||
3. **结果通过 subagent announce 自动返回给 invest-analyst** ✅
|
||
4. **流程按顺序执行**:Bull → Bear → Bull Final → (Hawk → Dove) ✅
|
||
5. **没有循环** ✅(sessions_spawn 是一次性的,不会互相触发)
|
||
|
||
---
|
||
|
||
## 八、sessions_send vs sessions_spawn 最终结论
|
||
|
||
| 工具 | 能否工作 | 原因 |
|
||
|------|---------|------|
|
||
| **@ mention** | ❌ | 导致无限循环 |
|
||
| **sessions_send** | ❌ | Gateway 内部 WebSocket 死锁(同进程内自连) |
|
||
| **sessions_spawn** | ✅ | 非阻塞,独立 lane 执行,announce 回传结果 |
|
||
|
||
**最终方案:sessions_spawn + announce 回传。**
|
||
|
||
---
|
||
|
||
## 九、Session 文件位置
|
||
|
||
| Agent | Session 路径 |
|
||
|-------|-------------|
|
||
| invest-analyst | `~/.openclaw/agents/invest-analyst/sessions/*.jsonl` |
|
||
| invest-bull | `~/.openclaw/agents/invest-bull/sessions/*.jsonl` |
|
||
| invest-bear | `~/.openclaw/agents/invest-bear/sessions/*.jsonl` |
|
||
| invest-hawk | `~/.openclaw/agents/invest-hawk/sessions/*.jsonl` |
|
||
| invest-dove | `~/.openclaw/agents/invest-dove/sessions/*.jsonl` |
|
||
|
||
查看辩论内容:
|
||
```bash
|
||
python3 -c "
|
||
import json
|
||
with open('SESSION_FILE.jsonl') as f:
|
||
for line in f:
|
||
d = json.loads(line)
|
||
msg = d.get('message', d)
|
||
role = msg.get('role', '')
|
||
content = msg.get('content', '')
|
||
if isinstance(content, list):
|
||
for c in content:
|
||
if isinstance(c, dict) and c.get('type') == 'text':
|
||
content = c.get('text', '')
|
||
break
|
||
if role == 'assistant' and len(str(content)) > 50:
|
||
print(f'[{role}] {str(content)[:300]}')
|
||
print()
|
||
"
|
||
```
|
||
|
||
---
|
||
|
||
## 七、监控命令速查
|
||
|
||
```bash
|
||
# 实时日志(过滤噪音)
|
||
journalctl --user -u openclaw-gateway.service -f --output=cat | grep -v "Config warn"
|
||
|
||
# 检查辩论 agent 是否有新 session
|
||
for a in invest-bull invest-bear invest-hawk invest-dove; do
|
||
echo "$a: $(ls ~/.openclaw/agents/$a/sessions/*.jsonl 2>/dev/null | wc -l) sessions"
|
||
done
|
||
|
||
# 检查 bot 登录状态
|
||
journalctl --user -u openclaw-gateway.service --no-pager -n 100 | grep "logged in"
|
||
|
||
# 检查是否有循环(大量 lane wait)
|
||
journalctl --user -u openclaw-gateway.service --no-pager --since "5 min ago" | grep -c "lane wait"
|
||
|
||
# Gateway 重启(需要 nvm)
|
||
export NVM_DIR="$HOME/.nvm"; [ -s "$NVM_DIR/nvm.sh" ] && . "$NVM_DIR/nvm.sh"; openclaw gateway restart
|
||
```
|
||
|
||
---
|
||
|
||
## Related
|
||
|
||
- [[Trading Agents 混合架构方案]]
|
||
- [[Trading Agents 部署记录]]
|
||
- [[TradingAgents 原始架构分析]]
|
||
- [[OpenClaw 部署配置分析]]
|