VitaBench-美团推出的大模型Agent评测基准

VitaBench-美团推出的大模型Agent评测基准

文章来源：智汇AI 发布时间：2025-10-27

VitaBench 是美团 LongCat 团队发布的面向复杂问题的大模型智能体评测基准。以外卖点餐、餐厅就餐、旅游出行等高频生活场景为载体，构建了包含66个工

暂无访问

VitaBench是什么

VitaBench 是美团 LongCat 团队发布的面向复杂问题的大模型智能体评测基准。以外卖点餐、餐厅就餐、旅游出行等高频生活场景为载体，构建了包含66个工具的交互式评测环境，设计了跨场景综合任务，从深度推理、工具使用与用户交互三大维度衡量智能体表现。首次量化拆解智能体任务，构建大规模真实环境数据库，引入真实用户模拟器，通过原子化评估准则（Rubric）实现细粒度行为覆盖。

VitaBench

VitaBench的主要功能

构建复杂任务评测环境：以外卖点餐、餐厅就餐、旅游出行等高频生活场景为载体，构建包含66个工具的交互式评测环境，设计跨场景综合任务，模拟真实场景下的复杂需求。

相关推荐

最新收录

猫目社区手机人工智能app

猫目社区手机

Perplexicaai人工智能软件免费

Perple

DescribePicai工具入口

Descri

MindSearch人工智能ai软件免费版

MindSe

QuickPromptAI最火的应用

QuickP

VideoDubbingai工具软件

VideoD

SeekAllAI人工智能ai软件免费版app官方

SeekAl

MyVocal.AI智能ai助手

MyVoca

AI快研侠ai人工智能免费版

AI快研侠a

VoiceEngine人工智能网页版

VoiceE

Samplette.ioai网页版本

Sample

音虫AiApp官方下载安装

音虫AiAp

ACEStudioAIApp下载安装

ACEStu

Voiceboxai智能下载安装

Voiceb

Melodiscoai下载免费安装

Melodi

SongRAI下载安装

SongRA

提示词优化器智能AI助手最新版下载

提示词优化器

AISingingai工具软件

AISing

最新文章

VitaBench-美团推出的大模型Agent评测基准

VitaBe

AipexBase-跨赴科技开源的首个AI原生后端服务平台

AipexB

Zen7 Payment Agent-Zen7 Labs开源的去中心化支付智能体

Zen7 P

混元世界模型1.1-腾讯混元开源的3D世界生成模型

混元世界模型

Seed3D 1.0-字节推出的3D生成大模型

Seed3D

蛐蛐 (QuQu)-开源的桌面端语音输入与文本处理工具

蛐蛐 (Qu

Baichuan-M2 Plus-百川智能推出的循证增强医疗大模型

Baichu

Nof1.ai交易提示词-为AI交易系统设计的模板

Nof1.a

MiniMax M2-MiniMax推出的Agent编程和优化模型

MiniMa

Kimi CLI-Moonshot AI推出的命令行通用智能体工具

Kimi C

摩尔线程、国家信息中心战略合作！国产GPU空前新机遇

摩尔线程、国

LongCat-Video-美团开源的AI视频生成模型

LongCa

NVIDIA未来将达10万亿美元市值：GPU血赚利润将达3750亿美元

NVIDIA

ChatGPT for any role-OpenAI推出的ChatGPT提示词模板

ChatGP

ValueCell-开源金融多Agent平台，协同工作提供财务洞察

ValueC

西湖大学教授：AI是可控的！鼓励使用AI探索人机协同合作

西湖大学教授

《和平精英》流星咚咚时装一览

《和平精英》

羊排怎么做好吃又简单：轻松上手的美味秘籍

羊排怎么做好