系统设计:深度研究代理

题目定义: 设计一个 Deep Research Agent。 用户会输入一个复杂问题,例如: “分析 NVIDIA 和 Apple 最近一个季度的财报差异,并给出对未来 6 个月股价走势的结构化判断。” 当前人工分析师完成一次这样的研究需要 2–3 小时。 我们希望将其缩短到 30 分钟以内,同时保证: 引用必须可追溯 不能 hallucinate 结论逻辑清晰 可以反复运行(可复现) 系统可以访问: web_search(query) fetch_url(url) get_financials(ticker, quarter) get_internal_docs(query) 输出是一个结构化 research report(含引用链接) 目标定义 这个系统的目标是将复杂多源研究时间从 2–3 小时压缩到 30 分钟以内,同时保持报告的引用覆盖率和逻辑完整性不低于人工基准。 硬性约束是所有事实性陈述必须有可追溯来源,不允许无来源推断,输出必须可复现。 成功定义为结构完整、引用完备、冲突显式呈现、且结果可机器解析。 最危险的失败不是工具调用失败,而是生成看似合理但存在隐性错误或遗漏反证的报告,因此系统设计必须优先保证可验证性而不是速度。 用户旅程 (User Journey) 典型用户是需要进行复杂多源分析的研究人员或分析师。 用户通过提交一个高复杂度问题触发研究任务。 系统会在必要时补充上下文,例如时间范围或数据来源偏好。 该任务以异步方式运行,因为深度研究不是实时交互型任务。 输出是一个结构化 research report,面向人类决策者阅读,包含可点击的引用链接以保证可追溯性。 问题空间切分 时间主要花在哪个阶段?哪个阶段最容易被agent加速?哪个阶段最危险? 人类研究通常分为5个阶段 问题理解与范围界定 信息收集 (多源检索) 信息压缩与结构化 冲突与差异分析 结构化写作与推论构建 2,3 是明显可以用agent加速;第4阶段也可以依赖agent来做判断;第5阶段需要严格证据约束,否则容易出错 agent最危险的阶段: 信息压缩阶段丢失关键反证 推论阶段跨越证据边界 ...

二月 11, 2026