文章来源:智汇AI 发布时间:2026-01-16
ArenaRL 是通义 DeepResearch 团队联合高德开源的,面向开放域智能体的对比式强化学习方法。ArenaRL通过引入锦标赛机制,将传统的绝对打分转
暂无访问ArenaRL 是通义 DeepResearch 团队联合高德开源的,面向开放域智能体的对比式强化学习方法。ArenaRL通过引入锦标赛机制,将传统的绝对打分转变为组内相对排序,用高效的种子单败淘汰赛拓扑结构,将计算复杂度控制在线性水平,有效解决开放域任务中因缺乏标准答案而导致的判别崩溃问题。ArenaRL 在学术基准测试中表现出色,在高德地图的真实业务场景中完成了落地验证,显著提升复杂任务的规划与执行能力。
