文章来源:智汇AI 发布时间:2025-11-06
FG-CLIP 2是360推出的开源双语细粒度视觉语言对齐模型,专为解决视觉与语言的精准对齐问题而设计。在视觉语言理解领域取得了重大突破,尤其在中英文双语任务上
暂无访问FG-CLIP 2是360推出的开源双语细粒度视觉语言对齐模型,专为解决视觉与语言的精准对齐问题而设计。在视觉语言理解领域取得了重大突破,尤其在中英文双语任务上表现出色。模型采用层次化对齐架构,通过全局语义对齐和细粒度视觉语言学习,逐步提升模型对图像细节的理解能力。引入了动态注意力机制,能智能聚焦图像的关键区域,更好地处理复杂的视觉语言任务。FG-CLIP 2在多个权威基准测试中超越了现有的顶尖模型,如Google的SigLIP 2和Meta的MetaCLIP 2,成为全球最强的视觉语言模型之一。
