文章来源:智汇AI 发布时间:2025-09-15
AgentCLUE-ICabin 是专注于汽车智能座舱场景的 AI 智能体测评基准,全面评估大语言模型在智能座舱中的工具调用能力。基准基于12大常见用车场景构建
暂无访问AgentCLUE-ICabin 是专注于汽车智能座舱场景的 AI 智能体测评基准,全面评估大语言模型在智能座舱中的工具调用能力。基准基于12大常见用车场景构建,覆盖从日常通勤到长途自驾等多种出行需求,充分贴合国内用户的实际交互场景。测评设计了1至10轮的多轮交互对话,每轮对话至少调用一个工具,全面考察模型在复杂环境下的交互能力。
AgentCLUE-ICabin 采用客观的0/1评估机制,通过比对调用函数的一致性和执行后的系统状态,确保测评结果的公正性。工具集分为出行、车控、娱乐、安全和通用五大类,涵盖从导航到座椅调节的70多个功能。测评流程包括场景搜集、工具集构造、对话数据生成和答案校验等环节,确保测评的科学性和实用性。