文章来源:智汇AI 发布时间:2025-12-13
DeepSearchQA是谷歌开源的新基准测试工具,用于评估Agent在网络研究任务中的全面性和多步查询能力。工具包含17个领域共900个手工设计的“因果链”任
暂无访问DeepSearchQA是谷歌开源的新基准测试工具,用于评估Agent在网络研究任务中的全面性和多步查询能力。工具包含17个领域共900个手工设计的“因果链”任务,每一步都依赖于先前分析。与传统测试不同,DeepSearchQA能衡量Agent生成详尽答案集的能力,评估研究准确性和检索召回率。DeepSearchQA能衡量“思考时长”效率,帮助开发者优化Agent性能,推动复杂任务处理技术的发展。
