Vidi2-字节跳动推出的多模态视频理解与生成模型

Vidi2-字节跳动推出的多模态视频理解与生成模型

文章来源:智汇AI    发布时间:2025-12-02

Vidi2是字节跳动推出的专注于视频理解和创作的多模态大语言模型。在多模态时间检索(TR)方面达到了行业领先水平,在时空定位(STG)和视频问答(Video Q

暂无访问

Vidi2是什么

Vidi2是字节跳动推出的专注于视频理解和创作的多模态大语言模型。在多模态时间检索(TR)方面达到了行业领先水平,在时空定位(STG)和视频问答(Video QA)方面取得了显著进展。Vidi2能根据文本查询,不仅识别出视频中对应的时间戳,能标记出目标对象的边界框。Vidi2引入了新的基准测试VUE-STG和VUE-TR-V2,以更好地评估STG能力。在实际应用中,Vidi2支持如智能剪辑、智能分镜、智能字幕等功能,帮助创作者更高效地进行视频创作。

Vidi2

Vidi2的主要功能

视频理解与检索:能处理数小时长的视频素材,根据文本查询快速定位到视频中相关的时间段,支持复杂场景下的长视频理解。

相关推荐