OneCAT-美团联合上交大推出的统一多模态模型

OneCAT-美团联合上交大推出的统一多模态模型

文章来源:智汇AI    发布时间:2025-09-08

OneCAT是美团推出的新型统一多模态模型,采用纯解码器架构,能无缝集成多模态理解、文本到图像生成和图像编辑功能。模型摒弃了传统多模态模型中依赖外部视觉编码器和

暂无访问

OneCAT是什么

OneCAT是美团推出的新型统一多模态模型,采用纯解码器架构,能无缝集成多模态理解、文本到图像生成和图像编辑功能。模型摒弃了传统多模态模型中依赖外部视觉编码器和分词器的设计,通过特定模态的专家混合(MoE)结构和多尺度自回归机制,实现了高效的多模态处理。在处理高分辨率图像输入和输出时表现出色。通过创新的尺度感知适配器和多模态多功能注意力机制,进一步增强了视觉生成能力和跨模态对齐能力。

OneCAT

OneCAT的主要功能

多模态理解:能高效处理图像和文本的多模态理解任务,无需外部视觉编码器或分词器,直接在纯解码器架构中实现对图文内容的深度理解。

相关推荐