每日AI快讯

DeepSeek R1-Zero – DeepSeek推出的开源推理模型,基于纯强化学习训练

DeepSeek R1-Zero 是 DeepSeek 团队开发的完全依赖纯强化学习(RL)训练的推理模型,未使用任何监督微调(SFT)数据。在推理任务上表现出色,在 AIME 2024 数学竞赛中,其 pass@1 分数从 15.6% 提升至 71.0%,接近 OpenAI-o1-0912 的水平。

VideoWorld – 字节联合交大等机构推出的自回归视频生成模型

VideoWorld是北京交通大学、中国科学技术大学和字节跳动合作开展的一项研究项目,旨在探索深度生成模型是否能仅通过未标注的视频数据学习复杂的知识,包括规则、推理和规划能力。

Step-1o Vision – 阶跃星辰推出的原生端到端视觉理解模型

Step-1o Vision 是阶跃星辰最新研发的原生端到端多模态生成与理解一体化模型中的视觉版本。专注于视觉任务,具备强大的图像识别、感知、推理和指令跟随能力,能处理复杂的视觉输入并生成准确的文本描述或进行逻辑推理。

3DIS-FLUX – 浙大联合哈佛推出的多实例生成框架

3DIS-FLUX是基于深度学习的多实例生成框架,旨在通过解耦实例合成实现高质量的图像生成。它结合了3DIS框架的深度驱动场景构建和FLUX模型的扩散变换器架构,分为两阶段:首先生成场景深度图,然后利用FLUX模型进行细节渲染。该方法通过注意力机制控制,确保每个实例的图像令牌只关注对应的文本令牌,从而实现精确的实例渲染。

DITTO-2 – Adobe 联合加大推出的音乐生成模型

DITTO-2 是 Adobe 和加州大学研究人员联合推出的新型音乐生成模型,旨在通过优化扩散模型的推理时间,实现快速且可控的音乐生成。模型基于扩散模型的推理时间优化(Inference-Time Optimization, ITO),通过模型蒸馏技术(如一致性模型 Consistency Model, CM 和一致性轨迹模型 Consistency Trajectory Model, CTM),将生成速度提升至比实时更快。

DiffEditor – 北大联合腾讯推出的细粒度图像编辑工具

DiffEditor是北京大学深圳研究生院与腾讯PCG的研究团队提出的基于扩散模型(Diffusion Model)的图像编辑工具,通过引入图像提示(image prompts)和文本提示,结合区域随机微分方程(Regional SDE)和时间旅行策略,显著提升了图像编辑的准确性和灵活性。

Textoon – 阿里通义实验室推出的文本提示生成2D卡通人物工具

Textoon 是阿里巴巴集团通义实验室推出的创新项目,首个能根据文本提示生成Live2D格式2D卡通角色的方法。基于先进的语言和视觉模型,能在一分钟内生成多样化且可交互的2D角色。

豆包大模型1.5 – 字节跳动推出的最新版大模型

豆包大模型1.5 是字节跳动推出的最新版本大模型。采用大规模稀疏MoE架构,等效于7倍激活参数的Dense模型性能,综合得分在知识、代码、推理、中文等多个测评基准上优于GPT-4o和Claude 3.5 Sonnet等模型。

OmniManip – 智元机器人联合北大推出的通用机器人操作框架

OmniManip 是北京大学与智元机器人联合实验室开发的通用机器人操作框架,旨在通过结合视觉语言模型(VLM)的高层次推理能力和精确的三维操作能力,实现机器人在非结构化环境中的通用操作。

子曰-o1 – 网易有道推出国内首个输出分步式讲解的推理模型

子曰-o1是什么子曰-o1是网易有道发布的国内首个输出分步式讲解的推理模型。模型采用14B轻量级架构,专为消费级显卡设计,能在低显存设备上...