# 2026-05-06 Agent健身房复盘 一句话概括:**这次发现的不是已经自动修复的问题,而是 5 类以后会反复浪费时间的操作摩擦 / 工具缺口。** | 优先级 | 发现的问题 | 真实含义 | 计划怎么解决 | | --- | --- | --- | --- | | 1 | 复核 HTML 一重生成就容易丢能力 | 昨天同一类页面先找错产物,后来又丢了对话气泡、标签编辑面板和解决率口径;这会直接破坏用户复核数据的信任。 | 做 `review_html_smoke.py`:检查产物索引、对话展示、标签编辑、保存接口、解决率口径,并把每次 HTML 生成写入 manifest。 | | 2 | Ark 重分类每次都在临时搭流水线 | 710、3828、1664 条任务都跑通了,但候选冻结、sample 校准、失败补跑、产物重生成靠人工记忆,后续容易漏步骤。 | 把 `session-batch-labeler` 升级成 `--reclassify-spec` 模式,统一输入 hash、prompt 版本、Ark 输出、交叉表、PE 样例和复核页生成。 | | 3 | Aeolus 字段和下载排障缺少固定入口 | 昨天同时遇到自动表不能 DESCRIBE、扩展导出按钮置灰、只能 UI 滚动抽 171 个展示字段;根因判断分散在浏览器和 SQL 里。 | 做 `aeolus_doctor.py`:用 URL/HAR/SQL 报错定位真实源表、字段元数据、展示名到后端字段映射,并检查下载前置条件。 | | 4 | 本地端口服务和 LaunchAgent 状态容易误判 | PicGo 端口没监听、旧 LaunchAgent label 残留、复核服务端口冲突和 TCC 阻塞,都需要一套系统事实链来快速定根因。 | 做本地服务 doctor:检查 HTTP、lsof、launchctl live job、plist、disabled database、端口冲突、TCC,并输出修复建议。 | | 5 | Night Gym 会把自己的记录当成用户痛点 | 输入里混入上一轮主流程和子分析 session,且无人值守子任务需要验收;不加守门会污染候选,也可能静默吞掉失败子分析。 | 做 `nightgym_run_integrity_doctor.py`:过滤自引用 session,校验子分析 JSON/schema/完成标志,并生成 rejected_subagents 报告。 | ## 一、下一步 | 顺序 | 先做什么 | 为什么 | | --- | --- | --- | | 1 | 先做复核 HTML smoke + 产物 manifest | 这是昨天最直接的用户可见回归,且脚本小、成功判据清楚。 | | 2 | 把 Ark 重分类沉淀成 spec 化流水线 | 商品域后续还会继续改标签,标准化能立刻减少重复脚本和漏产物。 | | 3 | 补 Aeolus doctor 的只读诊断版 | 字段名、真实源表、下载置灰是高频数据分析前置卡点,先诊断再自动化点击。 | | 4 | 把本地服务 doctor 并入定时任务/LaunchAgent skill | 能统一处理 PicGo、复核写入服务、旧 label 残留、端口冲突。 | | 5 | 给 Night Gym 加自检报告 | 先作为只读守门,避免早间复盘被自身运行噪音污染。 | ## 二、候选详情 ### 2.1 复核 HTML 回归冒烟守门 - 类型:`diagnostic-tool`;风险:`low`;价值:`high` - 摘要:这个主题有效:多个 session 里反复出现复核 HTML 的产物定位错误、对话展示降级、标签编辑面板缺失和解决率口径回归。它适合沉淀成一个发布前/重生成后的冒烟诊断工具,用稳定检查项守住复核页面的核心能力。 - 示例:[review-html-regression-smoke.md](examples/review-html-regression-smoke.md) 证据摘录: - `019dfc7b-f02b-7083-950d-237f0321ea58`:user: 我之前做过一个html看用户对话的东西,帮我打开。随后指出“不是这个”,说明历史分析 HTML 没有可检索的产物索引,agent 先打开了错误页面。 - `019dfc7b-f02b-7083-950d-237f0321ea58`:assistant: 找到另一个更像“看用户对话”的页面:商品域最终体系_生命周期映射_session复核_2026-04-28_v1.html,它有 messages_readable 和 session 复核卡片。 ### 2.2 Ark 重分类流水线标准化 - 类型:`tool-upgrade`;风险:`medium`;价值:`high` - 摘要:这个主题有效,不是噪音:片段里先出现了规则拆分和用户纠偏,随后多次改为 Ark 二分类/多分类并成功产出复核页、CSV、Excel、图表和 PE 样例。它反映的是一个可复用的工作流缺口:重分类任务需要从候选冻结、Ark 标注、失败补跑、清洗汇总到复核产物重生成形成标准流水线,而不是每次 ad hoc 写脚本。 - 示例:[ark-reclassify-pipeline.md](examples/ark-reclassify-pipeline.md) 证据摘录: - `019dfd90-dc67-7f03-bfd8-c23ab364be52`:user: 然后在这个重新分类的任务上,你还是ark打标吧,别正则分。assistant: 先冻结 710 条候选,再用 Ark 二分类,最后让复核页读取 Ark 结果。 - `019dfd90-dc67-7f03-bfd8-c23ab364be52`:assistant: 全量 Ark 结果完成:710/710 成功,Ark 判 类目咨询 183、保留类目/经营范围准入 527。复核页、CSV、汇总 Excel、气泡图都已重生成。 ### 2.3 Aeolus 字段与下载诊断器 - 类型:`diagnostic-tool`;风险:`medium`;价值:`high` - 摘要:这个主题有效,且不是单次偶发问题:同一组会话里连续出现了字段名获取、Aeolus 自动表不可查、导出按钮不开放、UI 虚拟列表抽取不完整等问题。它适合沉淀成一个诊断工具,把“真实源表定位、元数据字段抽取、导出条件检查、UI 兜底抽取”串成固定流程,减少每次靠人工摸接口和页面状态。 - 示例:[aeolus-schema-download-doctor.md](examples/aeolus-schema-download-doctor.md) 证据摘录: - `019dfd30-2ad0-7d90-904c-b7294c843ee2`:user: 如何能把这个表所有的字段名拿到?随后 SQL 报 Object aeolus_data_table_8_3509189_prod not found within LF_HL_HIVE.aeolus_data_db_aeolus_tiger_202506。 - `019dfd30-2ad0-7d90-904c-b7294c843ee2`:assistant: 这个表名很像 Aeolus 自动生成的数据集/中间表名,不一定是能直接 DESCRIBE 的真实 Hive 表;要回到 Aeolus 数据集编辑页找 Hive-sql-0 背后的真实源表。 ### 2.4 本地服务与 LaunchAgent 健康检查 - 类型:`diagnostic-tool`;风险:`medium`;价值:`high` - 摘要:这个主题有效:多个片段都指向同一类本机自动化故障,表象包括端口拒绝、LaunchControl 状态误读、旧 label 残留、端口冲突和 macOS TCC 权限拦截。应沉淀成一个先查真实监听、再查 launchd/plist/disabled database、最后判断权限边界的本地诊断工具,减少把 UI 状态或单点报错误判为根因。 - 示例:[local-service-launchagent-doctor.md](examples/local-service-launchagent-doctor.md) 证据摘录: - `019dfcaa-4bf0-7683-ba97-1895c5927bb6`:Obsidian 图片上传失败,Failed request: net::ERR_CONNECTION_REFUSED。上传目标是 http://127.0.0.1:36677/upload,但本机没有进程监听 36677;根因是 PicGo 没运行。 - `019dfcaa-4bf0-7683-ba97-1895c5927bb6`:已创建并加载 com.user.codex.picgo-login.plist;验证 plutil 通过、launchctl 已加载、PicGo 当前仍监听 127.0.0.1:36677。 ### 2.5 Night Gym 自身记录过滤与产物验收 - 类型:`diagnostic-tool`;风险:`low`;价值:`high` - 摘要:这个主题有明确价值:片段同时指向两类 Night Gym 自身问题,一是扫描输入被上一轮 Night Gym 主流程和子分析日志污染,二是无人值守子任务缺少稳定的产物验收信号。它适合落成一个轻量诊断工具,在生成候选前识别自引用记录,在聚合前验证子分析 JSON、日志完成标志和 evidence 质量。 - 示例:[nightgym-run-integrity-doctor.md](examples/nightgym-run-integrity-doctor.md) 证据摘录: - `019df9bb-991c-7be0-9ff8-e4eb227a26d9`:reflection: 输出目录已存在。我现在写入一个保守的诊断工具结论:重点不是改模型判断,而是在 Night Gym 扫描入口先识别并剔除自己的主流程/子分析记录。 - `019df9bb-991c-7431-bcf4-fd66fd8bb7fa`:reflection: 这个主题不是噪音:片段里同时有明确目标文件和“没有最终消息/没有保存信号”的缺口,正好适合做无人值守任务的产物验收。