Research

题目定义：设计一个 Deep Research Agent。用户会输入一个复杂问题，例如： “分析 NVIDIA 和 Apple 最近一个季度的财报差异，并给出对未来 6 个月股价走势的结构化判断。” 当前人工分析师完成一次这样的研究需要 2–3 小时。我们希望将其缩短到 30 分钟以内，同时保证：引用必须可追溯不能 hallucinate 结论逻辑清晰可以反复运行（可复现）系统可以访问： web_search(query) fetch_url(url) get_financials(ticker, quarter) get_internal_docs(query) 输出是一个结构化 research report（含引用链接）目标定义这个系统的目标是将复杂多源研究时间从 2–3 小时压缩到 30 分钟以内，同时保持报告的引用覆盖率和逻辑完整性不低于人工基准。硬性约束是所有事实性陈述必须有可追溯来源，不允许无来源推断，输出必须可复现。成功定义为结构完整、引用完备、冲突显式呈现、且结果可机器解析。最危险的失败不是工具调用失败，而是生成看似合理但存在隐性错误或遗漏反证的报告，因此系统设计必须优先保证可验证性而不是速度。用户旅程（User Journey）典型用户是需要进行复杂多源分析的研究人员或分析师。用户通过提交一个高复杂度问题触发研究任务。系统会在必要时补充上下文，例如时间范围或数据来源偏好。该任务以异步方式运行，因为深度研究不是实时交互型任务。输出是一个结构化 research report，面向人类决策者阅读，包含可点击的引用链接以保证可追溯性。问题空间切分时间主要花在哪个阶段？哪个阶段最容易被agent加速？哪个阶段最危险？人类研究通常分为5个阶段问题理解与范围界定信息收集（多源检索）信息压缩与结构化冲突与差异分析结构化写作与推论构建 2，3 是明显可以用agent加速；第4阶段也可以依赖agent来做判断；第5阶段需要严格证据约束，否则容易出错 agent最危险的阶段：信息压缩阶段丢失关键反证推论阶段跨越证据边界 ...