文章来源:智汇AI 发布时间:2025-12-02
Vidi2是字节跳动推出的专注于视频理解和创作的多模态大语言模型。在多模态时间检索(TR)方面达到了行业领先水平,在时空定位(STG)和视频问答(Video Q
暂无访问Vidi2是字节跳动推出的专注于视频理解和创作的多模态大语言模型。在多模态时间检索(TR)方面达到了行业领先水平,在时空定位(STG)和视频问答(Video QA)方面取得了显著进展。Vidi2能根据文本查询,不仅识别出视频中对应的时间戳,能标记出目标对象的边界框。Vidi2引入了新的基准测试VUE-STG和VUE-TR-V2,以更好地评估STG能力。在实际应用中,Vidi2支持如智能剪辑、智能分镜、智能字幕等功能,帮助创作者更高效地进行视频创作。
