FutureX-字节联合复旦等高校推出的动态实时评估基准

FutureX-字节联合复旦等高校推出的动态实时评估基准

文章来源:智汇AI    发布时间:2025-08-27

FutureX是字节跳动、复旦大学、斯坦福大学和普林斯顿大学的研究团队联合发布的,专为LLM智能体未来预测任务设计的动态实时评估基准。通过半自动化管道从195个

暂无访问

FutureX是什么

FutureX是字节跳动、复旦大学、斯坦福大学和普林斯顿大学的研究团队联合发布的,专为LLM智能体未来预测任务设计的动态实时评估基准。通过半自动化管道从195个高质量网站实时收集未来事件问题,在事件解决后自动获取真实结果进行评分,有效避免了数据污染。FutureX覆盖政治、经济、金融、体育和娱乐等多个领域,包含单选、多选、开放性排名和数值预测等多种类型的问题,分为四个难度层级,全面评估LLM代理的推理和预测能力。

FutureX

FutureX的主要功能

动态实时更新:FutureX能实时收集未来事件问题,在事件解决后自动获取真实结果进行评分,确保评估的时效性和动态性。

相关推荐