Vidi2-字节跳动推出的多模态视频理解与生成模型

文章来源：智汇AI 发布时间：2025-12-02

Vidi2是字节跳动推出的专注于视频理解和创作的多模态大语言模型。在多模态时间检索（TR）方面达到了行业领先水平，在时空定位（STG）和视频问答（Video Q

暂无访问

Vidi2是什么

Vidi2是字节跳动推出的专注于视频理解和创作的多模态大语言模型。在多模态时间检索（TR）方面达到了行业领先水平，在时空定位（STG）和视频问答（Video QA）方面取得了显著进展。Vidi2能根据文本查询，不仅识别出视频中对应的时间戳，能标记出目标对象的边界框。Vidi2引入了新的基准测试VUE-STG和VUE-TR-V2，以更好地评估STG能力。在实际应用中，Vidi2支持如智能剪辑、智能分镜、智能字幕等功能，帮助创作者更高效地进行视频创作。