--- created: "2026-03-21" type: project status: active tags: [trading, multi-agent, openclaw, debugging, optimization] --- # Trading Agents 调试与优化记录 部署后的调试过程、发现的问题、尝试的方案和最终修复。 --- ## 一、问题时间线 | 时间 | 事件 | 状态 | |------|------|------| | 14:00 | 初次部署,4 个辩论 bot 登录成功 | ✅ | | 14:05 | 发现 `openclaw status --deep` 超时 | ⚠️ bind=lan 导致 CLI WebSocket 无法连 localhost | | 14:09 | 发现 invest-analyst 有 typing 超时 | ⚠️ `google-antigravity-auth` 插件刷日志 | | 14:11 | 日志被 Config warning 洪水淹没 | 🔧 删除 `plugins.entries.google-antigravity-auth` | | 14:33 | 用户消息被 `no-mention` 拒绝 | 🔍 辩论 bot `requireMention: true` 正常拒绝 | | 14:41 | invest-analyst 回复了快速分析而非触发辩论 | 🔍 LLM 选择了捷径 | | 14:45 | 测试 @ mention 模式——invest-bear 设 `requireMention: false` 后响应 | ✅ 确认 bot 能工作 | | 14:55 | 添加 `groupChat.mentionPatterns`,切换到 ds-* 风格 @ mention 协调 | 🔧 | | 15:00 | **NVDA 辩论成功触发!** Bull/Bear/Hawk/Dove 全部参与 | ✅ 辩论质量很高 | | 15:00-15:05 | **辩论进入无限循环**——agent 通过 @ mention 不断互相回复 | ❌ 核心问题 | | 15:05 | 强制 gateway restart 停止循环 | 🔧 | | 15:05 | AMZN 分析——invest-analyst 跳过辩论直接回答 | ❌ LLM 没调用 trade-analyze | | 15:22 | 最终修复:移除辩论 agent mentionPatterns + 强化 sessions_send 流程 | 🔧 | --- ## 二、发现的问题与修复 ### 问题 1:Config Warning 日志洪水 **现象**:`google-antigravity-auth` 插件每隔几秒刷一条 warning,导致所有有用日志被淹没。 **修复**: ```python del config["plugins"]["entries"]["google-antigravity-auth"] ``` **教训**:OpenClaw 中已卸载的插件如果还留在 config 里,会持续刷 warning。应及时清理。 ### 问题 2:@ Mention 模式导致辩论无限循环 **现象**:invest-analyst 通过 `@Bull` 在频道中触发 Bull,Bull 回复后 Bear 看到消息并回复,然后 Bull 又回复……无限循环。 **根本原因**:@ mention 模式下没有内建的轮次限制。每条消息都会触发对方回复。`REPLY_SKIP` 在 SOUL.md 中写了,但 LLM 没有严格执行。 **尝试的方案**: | 方案 | 结果 | |------|------| | `requireMention: true` + `groupChat.mentionPatterns` | ❌ 循环——agent 在频道中互相 @ | | SOUL.md 中写 `REPLY_SKIP` 规则 | ❌ LLM 不严格执行 | | **最终方案:移除辩论 agent 的 `groupChat.mentionPatterns`** | ✅ 辩论 agent 不再响应频道消息 | **最终修复**: - 辩论 agent(bull/bear/hawk/dove)**没有** `groupChat.mentionPatterns` - 辩论 agent 保持 `requireMention: true` - 只能通过 `sessions_send` A2A 协议调用 - invest-analyst 通过 `sessions_send` 明确控制每一轮,手动决定何时停止 ### 问题 3:LLM 跳过辩论流程 **现象**:用户发 `/trade-analyze AMZN`,invest-analyst 直接用 `invest-api` skill 做了快速分析,没有调用 trade-analyze skill 触发辩论。 **根本原因**:kimi-coding/k2p5 模型倾向于走捷径——直接回答比调用复杂的多 agent 流程更快。AGENTS.md 中没有足够强的指令区分两种模式。 **修复**: 1. 精简 AGENTS.md,明确触发条件:`/trade-analyze` 或 "要不要买" → **必须使用 trade-analyze skill** 2. 重写 trade-analyze SKILL.md,加入 `CRITICAL` 级别指令和逐步 sessions_send 调用模板 3. Skill description 中直接写明 "MUST use sessions_send" ### 问题 4:Discord bot 频繁断开 **现象**:`health-monitor: restarting (reason: disconnected)` 反复出现。 **可能原因**:10 个 Discord bot 同时从一台机器连接,可能触发 Discord rate limit 或 WebSocket 连接限制。 **当前状态**:health-monitor 自动重连,功能不受影响,但会导致短暂的消息丢失窗口。 --- ## 三、@ Mention vs sessions_send 对比 经过实测验证的结论: | 维度 | @ Mention(ds-* 风格) | sessions_send | |------|----------------------|---------------| | 触发方式 | 在频道中写 `@智库 请分析...` | 调用 `sessions_send` 工具 | | 可见性 | 用户能在频道中看到完整对话 | 后台执行,用户看不到过程 | | 轮次控制 | ❌ 无内建限制,容易循环 | ✅ `maxPingPongTurns: 5` 硬限制 | | 适用场景 | 人类协调(如大统领派任务给智库) | agent 间自动协作 | | 辩论场景 | ❌ 不适合——agent 间 @ 会死循环 | ✅ 适合——编排者控制每轮 | **结论**:ds-* 的 @ mention 模式适合**人类在中间协调**的场景(大统领手动 @ 智库做任务)。但对于**自动化辩论**(agent 自动互相辩论),必须用 `sessions_send`,由编排者手动控制每轮。 --- ## 四、NVDA 辩论验证结果 虽然出现了循环问题,但辩论本身的质量很高,验证了架构的可行性。 ### Bull 核心论点 - 分析师共识目标价 $269,较现价 $172.70 有 56% 上行 - RSI 37.8 接近超卖,布林带下轨形成支撑 - AI 需求周期才刚开始,Blackwell 放量 ### Bear 核心论点 - 85% 分析师看多是情绪极端化危险信号 - MACD 负值且柱状图扩大,下跌动能强化 - PE 35x 对 $4.2T 市值需要持续 30%+ 增长支撑 ### Hawk 风控评估 - 风险收益比 8:1(止损 $160 vs 目标 $269) - 建议 15-20% 仓位,现价直接建仓 50% ### Dove 风控评估 - 5% 仓位上限 - 减仓 25% 锁定利润 - 更宽止损 $155 避免被正常波动震出 ### 最终方案(辩论共识) - 减仓 25%(8 股)锁定利润 - 保留 25 股核心仓位 - 止损 $155 - 目标 $220-250 --- ## 五、最终配置状态 ### openclaw.json 关键配置 ```json5 { agents: { list: [ // invest-analyst: 有 groupChat.mentionPatterns(响应频道消息) // invest-bull/bear/hawk/dove: 无 groupChat(只响应 sessions_send) ] }, tools: { agentToAgent: { enabled: true, allow: ["ds-*系列", "invest-analyst", "invest-bull", "invest-bear", "invest-hawk", "invest-dove"] } }, session: { agentToAgent: { maxPingPongTurns: 5 } } } ``` ### invest-analyst AGENTS.md 关键逻辑 ``` 触发条件判断: - 简单问题 → 直接用 invest-api skill - /trade-analyze 或 "要不要买" → 必须用 trade-analyze skill trade-analyze 流程: 1. curl 收集 4 类数据 2. sessions_send → invest-bull(Round 1) 3. sessions_send → invest-bear(Round 2) 4. sessions_send → invest-bull(Round 3 FINAL) 5. sessions_send → invest-hawk 6. sessions_send → invest-dove 7. 综合裁决 → BUY/SELL/HOLD ``` ### 辩论 Agent 配置 - `requireMention: true`(不响应频道消息) - 无 `groupChat.mentionPatterns`(不能被 @ mention 触发) - 只通过 `sessions_send` A2A 协议被 invest-analyst 调用 - SOUL.md 中有 `REPLY_SKIP` 规则和字数限制 --- ## 六、Gateway WebSocket 超时修复(根本问题) ### 问题 `sessions_send` 和 `sessions_spawn` 全部报错: ``` gateway timeout after 10000ms Gateway target: ws://127.0.0.1:18789 Source: local loopback ``` 所有 session 工具、`openclaw status --deep`、`openclaw gateway call` 都超时。 ### 根因分析 1. Gateway 配置 `bind: "lan"`,监听 `0.0.0.0:18789` 2. 但 **`127.0.0.1:18789` 实际连不通**(`curl http://127.0.0.1:18789/` 超时,但 `curl http://192.168.68.108:18789/` 成功) 3. OpenClaw 内部工具默认连 `ws://127.0.0.1:18789`,导致所有 RPC 超时 4. 同时存在 [v2026.3.13 WebSocket handshake bug](https://github.com/openclaw/openclaw/issues/48167):handshake timeout 只有 3 秒 ### 修复 **修复 1:Systemd 环境变量** 在 `~/.config/systemd/user/openclaw-gateway.service` 中添加: ```ini Environment=OPENCLAW_GATEWAY_URL=ws://192.168.68.108:18789 Environment=OPENCLAW_ALLOW_INSECURE_PRIVATE_WS=1 ``` 然后 `systemctl --user daemon-reload`。 这让 gateway 内部工具通过 LAN IP(而非 localhost)连接,绕过了 loopback 不通的问题。 **修复 2:Patch handshake timeout(来自 [PR #47388](https://github.com/openclaw/openclaw/pull/47388))** 文件:`~/.nvm/versions/node/v24.13.1/lib/node_modules/openclaw/dist/gateway-cli-CuZs0RlJ.js`(和 `Ol-vpIk7.js`) ```javascript // 原始(第 7588 行) const DEFAULT_HANDSHAKE_TIMEOUT_MS = 3e3; // 修改为 const DEFAULT_HANDSHAKE_TIMEOUT_MS = 10e3; ``` **修复 3:Patch scope grant(来自 [PR #47388](https://github.com/openclaw/openclaw/pull/47388))** 同一文件,第 22605 行附近: ```javascript // 原始 if (!device && (!isControlUi || decision.kind !== "allow")) clearUnboundScopes(); // 修改为 if (!device && (!isControlUi || decision.kind !== "allow")) { clearUnboundScopes(); } else if (!device && decision.kind === "allow") { scopes = ["operator.read"]; connectParams.scopes = scopes; } ``` ### 验证 修复后 `openclaw gateway call status` 返回正常 JSON,`sessions_spawn` 成功: ``` 15:49:43 status: "accepted", childSessionKey: "agent:invest-bull:subagent:ad2d265d..." 15:50:06 [subagent task] bull-AMZN: completed successfully ``` ### 注意事项 - 这些 patch 在 `npm update openclaw` 后会被覆盖,需要重新打 - 关注 [PR #47388](https://github.com/openclaw/openclaw/pull/47388) 和 [PR #48950](https://github.com/openclaw/openclaw/pull/48950) 的合并状态 - 合并后升级即可去掉手动 patch --- ## 七、最终验证:AMZN 辩论流程 ### 完整时间线 | 时间 (UTC) | 事件 | 状态 | |------------|------|------| | 15:48:20 | 读取 trade-analyze skill | ✅ | | 15:48:36 | 收集 AMZN 数据(curl API) | ✅ | | 15:49:13 | metrics + sentiment 数据返回 | ✅ | | 15:49:27 | technical + macro 返回 503 | ⚠️ K8s API pod 暂时不可用 | | 15:49:43 | `sessions_spawn` → invest-bull | ✅ accepted | | 15:50:06 | Bull 完成,结果返回 | ✅ | | 15:50:25 | `sessions_spawn` → invest-bear | ✅ accepted | | 15:50:53 | Bear 完成,结果返回 | ✅ | | 15:51:04 | `sessions_spawn` → invest-bull (final rebuttal) | ✅ accepted | | 15:51:08 | 等待 Bull Final + Hawk + Dove... | ⏳ | ### 关键确认 1. **`sessions_spawn` 成功调用了辩论 agent** ✅ 2. **辩论 agent 在后台执行,不在 Discord 输出** ✅(Discord 已禁用) 3. **结果通过 subagent announce 自动返回给 invest-analyst** ✅ 4. **流程按顺序执行**:Bull → Bear → Bull Final → (Hawk → Dove) ✅ 5. **没有循环** ✅(sessions_spawn 是一次性的,不会互相触发) --- ## 八、sessions_send vs sessions_spawn 最终结论 | 工具 | 能否工作 | 原因 | |------|---------|------| | **@ mention** | ❌ | 导致无限循环 | | **sessions_send** | ❌ | Gateway 内部 WebSocket 死锁(同进程内自连) | | **sessions_spawn** | ✅ | 非阻塞,独立 lane 执行,announce 回传结果 | **最终方案:sessions_spawn + announce 回传。** --- ## 九、Session 文件位置 | Agent | Session 路径 | |-------|-------------| | invest-analyst | `~/.openclaw/agents/invest-analyst/sessions/*.jsonl` | | invest-bull | `~/.openclaw/agents/invest-bull/sessions/*.jsonl` | | invest-bear | `~/.openclaw/agents/invest-bear/sessions/*.jsonl` | | invest-hawk | `~/.openclaw/agents/invest-hawk/sessions/*.jsonl` | | invest-dove | `~/.openclaw/agents/invest-dove/sessions/*.jsonl` | 查看辩论内容: ```bash python3 -c " import json with open('SESSION_FILE.jsonl') as f: for line in f: d = json.loads(line) msg = d.get('message', d) role = msg.get('role', '') content = msg.get('content', '') if isinstance(content, list): for c in content: if isinstance(c, dict) and c.get('type') == 'text': content = c.get('text', '') break if role == 'assistant' and len(str(content)) > 50: print(f'[{role}] {str(content)[:300]}') print() " ``` --- ## 七、监控命令速查 ```bash # 实时日志(过滤噪音) journalctl --user -u openclaw-gateway.service -f --output=cat | grep -v "Config warn" # 检查辩论 agent 是否有新 session for a in invest-bull invest-bear invest-hawk invest-dove; do echo "$a: $(ls ~/.openclaw/agents/$a/sessions/*.jsonl 2>/dev/null | wc -l) sessions" done # 检查 bot 登录状态 journalctl --user -u openclaw-gateway.service --no-pager -n 100 | grep "logged in" # 检查是否有循环(大量 lane wait) journalctl --user -u openclaw-gateway.service --no-pager --since "5 min ago" | grep -c "lane wait" # Gateway 重启(需要 nvm) export NVM_DIR="$HOME/.nvm"; [ -s "$NVM_DIR/nvm.sh" ] && . "$NVM_DIR/nvm.sh"; openclaw gateway restart ``` --- ## Related - [[Trading Agents 混合架构方案]] - [[Trading Agents 部署记录]] - [[TradingAgents 原始架构分析]] - [[OpenClaw 部署配置分析]]