每日AI快讯 - 智汇AI

CogVideoX-Flash – 智谱推出的首个免费AI视频生成模型

CogVideoX-Flash 是智谱推出的首个免费AI视频生成模型，继承CogVideoX自研的端到端视频理解模型，具备强大的视频生成能力。CogVideoX-Flash支持文生视频，依据输入的文本描述精准地生成相应的动态视频内容。

每日AI快讯

2025-02-10

Mini-InternVL – 上海AI Lab联合清华等机构推出的轻量级多模态大模型

Mini-InternVL是“迷你版”书生·万象大模型，是上海AI实验室与清华大学、南京大学等机构联合推出的轻量级多模态大型语言模型系列，包含1B、2B和4B三个参数版本，用较小的参数量实现较高的性能，其中Mini-InternVL-4B仅用5%的参数量达到InternVL2-76B约九成的性能。

每日AI快讯

2025-02-10

Weebo – AI语音聊天机器人，实时响应用户语音指令和问题

Weebo是实时语音聊天机器人，基于Whisper Small、Llama 3.2和Kokoro-82M技术驱动。能通过语音识别和生成技术，与用户进行自然流畅的对话，提供实时的语音交互体验。

每日AI快讯

2025-02-10

ParGo – 字节与中山大学联合推出的多模态大模型连接器

ParGo是字节团队与中山大学合作提出的创新的多模态大语言模型连接器，旨在提升视觉和语言模态在多模态大语言模型（MLLMs）中的对齐效果。通过结合局部token和全局token，使用精心设计的注意力掩码分别提取局部和全局信息。

每日AI快讯

2025-02-10

MatterGen – 微软推出的无机材料生成模型

MatterGen是微软推出的创新生成模型，专门用在设计无机材料。基于独特的扩散过程，逐步细化原子类型、坐标和周期晶格，从而生成跨越周期表的稳定、多样化的无机材料。MatterGen能被微调，满足广泛的性能约束，如化学组成、对称性、磁性、电子和机械性能等。

每日AI快讯

2025-02-10

XMusic – 腾讯多媒体实验室自主研发的AI通用作曲框架

XMusic是腾讯多媒体实验室自主研发的AI通用作曲框架。用户只需上传视频、图片、文字、标签、哼唱等任意内容，XMusic能生成情绪、曲风、节奏可控的高质量音乐。基于自研的多模态和序列建模技术，可将提示词内容解析至符号音乐要素空间，以此为控制条件引导模型生成丰富、精准、动听的音乐，达到商用级的音乐生成能力要求。

每日AI快讯

2025-02-10

Seaweed APT – 字节跳动推出的单步图像和视频生成项目

Seaweed APT是字节跳动推出的对抗性后训练（Adversarial Post-Training）模型，能实现图像和视频的一站式生成。Seaweed APT基于预训练的扩散模型，直接对真实数据进行对抗性训练，而非用预训练模型作为教师来生成目标，在单步生成中实现高质量的图像和视频输出。

每日AI快讯

2025-02-10

OmAgent – Om AI联合浙大开源的多模态语言代理框架

OmAgent是Om AI和浙江大学滨江研究院联合开源的多模态语言代理框架，能简化设备端智能代理的开发。OmAgent支持可重用的代理组件，助力开发者构建复杂的多模态代理，处理文本、图像、视频和音频等多种输入形式。

每日AI快讯

2025-02-10

T2A-01-HD – 海螺AI海外版推出新的语音模型

T2A-01-HD是海螺AI海外版推出新的语音模型。支持语音克隆，仅需10秒音频即可精准克隆声音，保留情感底色。模型具备智能情感系统，能捕捉语音中的情感细微差别，使语音更生动。用户可选择自动情绪检测或手动控制，获得完美表达。

每日AI快讯

2025-02-10

Uni-AdaFocus – 清华大学推出通用的高效视频理解框架

Uni-AdaFocus是清华大学自动化系的研究团队推出的通用的高效视频理解框架，框架通过自适应聚焦机制，动态调整计算资源的分配，实现对视频内容的高效处理。

每日AI快讯

2025-02-10