文章来源:智汇AI 发布时间:2025-08-27
FutureX是字节跳动、复旦大学、斯坦福大学和普林斯顿大学的研究团队联合发布的,专为LLM智能体未来预测任务设计的动态实时评估基准。通过半自动化管道从195个
暂无访问FutureX是字节跳动、复旦大学、斯坦福大学和普林斯顿大学的研究团队联合发布的,专为LLM智能体未来预测任务设计的动态实时评估基准。通过半自动化管道从195个高质量网站实时收集未来事件问题,在事件解决后自动获取真实结果进行评分,有效避免了数据污染。FutureX覆盖政治、经济、金融、体育和娱乐等多个领域,包含单选、多选、开放性排名和数值预测等多种类型的问题,分为四个难度层级,全面评估LLM代理的推理和预测能力。