AI教程

ObjectMover – 港大联合 Adobe 推出的新型图像编辑模型

ObjectMover 是香港大学和 Adobe Research 联合提出的新型图像编辑模型,解决图像中物体移动、插入和移除时出现的光照、阴影不协调以及物体失真等问题。将物体移动视为两帧视频的特殊案例,利用预训练视频生成模型的跨帧一致性学习能力,通过微调模型将其迁移到图像编辑任务。

PhysGen3D – 清华等高校联合推出的单图创建交互式 3D 场景

PhysGen3D 是创新的框架,能将单张图像转换为交互式的 3D 场景,生成具有物理真实感的视频。结合了基于图像的几何和语义理解以及基于物理的模拟,通过从单张图像中推断物体的 3D 形状、姿态、物理和光照属性,创建出以图像为中心的数字孪生。

EmotiVoice – 网易有道开源的AI语音合成系统

EmotiVoice是网易有道开源的多语言、多声音和提示控制的文本到语音(TTS)系统。EmotiVoice支持英语和中文,提供超过2000种声音,支持基于提示生成带有不同情感(如开心、悲伤、愤怒等)的语音。

Vibe Draw – AI 3D建模工具,涂鸦草图一键转为3D模型

Vibe Draw是开源的 AI 3D建模工具,支持将用户在2D画布上绘制的涂鸦草图转化为精美的3D模型。用户能用文本提示或继续绘制迭代优化模型,一键导出为标准格式(.glTF)。Vibe Draw打破技术门槛,让任何人无需专业技能轻松实现3D创意。

OmniSQL – 开源文本到 SQL 模型,自然语言转换为 SQL 查询语句

OmniSQL 是开源的文本到 SQL 模型,将自然语言问题高效转换为 SQL 查询语句。通过创新的数据合成框架生成了首个百万量级的文本到 SQL 数据集 SynSQL-2.5M,包含 250 万条高质量样本,覆盖 16,000 余个跨领域数据库,样本涵盖多种复杂度层级和语言风格。

MegaTTS 3 – 字节与浙江大学合作推出的零样本语音合成系统

MegaTTS 3是字节跳动与浙江大学合作推出的零样本文本到语音合成系统,采用轻量级扩散模型,参数量仅0.45B,能高效生成高质量语音。系统将语音分解为内容、音色、韵律等属性分别建模,支持中文、英文及中英混合语音合成,具备超高音质的语音克隆能力,几秒音频样本能模仿目标声音。

AutoGLM沉思 – 智谱推出首个免费、具备深度研究和操作能力的AI Agent

AutoGLM沉思是智谱推出的首个免费、具备深度研究和操作能力的AI Agent,能模拟人类思维过程,处理复杂的开放式问题。AutoGLM沉思具备强大的推理能力和自主操作能力,支持进行多步骤的深度思考,像人类一样自主浏览和操作网页,完成从数据检索、分析到生成报告。

cpmGO – 面壁智能推出的首个纯端侧汽车智能助手

cpmGO (小钢炮超级助手)是面壁智能推出的全球首个纯端侧智能助手,专为汽车智能座舱设计。cpmGO 基于面壁小钢炮MiniCPM 端侧模型开发,具备视觉、语音、多模态交互、图形UI交互等丰富能力,实现舱外至舱内的全链条感知、决策与执行。

AReaL-boba – 蚂蚁联合清华开源的强化学习训练框架

AReaL-boba 是蚂蚁技术研究院和清华大学联合推出的开源强化学习训练框架。AReaL-boba是 AReaL 的升级版本,降低了强化学习训练门槛,用户能轻松训练推理模型。

Qlib – 微软开源的金融 AI 量化投资工具

Qlib 是微软亚洲研究院推出的面向金融行业的AI量化投资工具,帮助量化研究者探索 AI 技术在投资领域的潜力。Qlib提供高性能的数据处理基础设施,支持从数据获取、模型训练到投资组合管理的全流程。