AI教程 - 智汇AI

ObjectMover – 港大联合 Adobe 推出的新型图像编辑模型

ObjectMover 是香港大学和 Adobe Research 联合提出的新型图像编辑模型，解决图像中物体移动、插入和移除时出现的光照、阴影不协调以及物体失真等问题。将物体移动视为两帧视频的特殊案例，利用预训练视频生成模型的跨帧一致性学习能力，通过微调模型将其迁移到图像编辑任务。

AI教程

2025-04-05

PhysGen3D 是创新的框架，能将单张图像转换为交互式的 3D 场景，生成具有物理真实感的视频。结合了基于图像的几何和语义理解以及基于物理的模拟，通过从单张图像中推断物体的 3D 形状、姿态、物理和光照属性，创建出以图像为中心的数字孪生。

AI教程

2025-04-05

EmotiVoice是网易有道开源的多语言、多声音和提示控制的文本到语音（TTS）系统。EmotiVoice支持英语和中文，提供超过2000种声音，支持基于提示生成带有不同情感（如开心、悲伤、愤怒等）的语音。

AI教程

2025-04-05

Vibe Draw是开源的 AI 3D建模工具，支持将用户在2D画布上绘制的涂鸦草图转化为精美的3D模型。用户能用文本提示或继续绘制迭代优化模型，一键导出为标准格式（.glTF）。Vibe Draw打破技术门槛，让任何人无需专业技能轻松实现3D创意。

AI教程

2025-04-05

OmniSQL 是开源的文本到 SQL 模型，将自然语言问题高效转换为 SQL 查询语句。通过创新的数据合成框架生成了首个百万量级的文本到 SQL 数据集 SynSQL-2.5M，包含 250 万条高质量样本，覆盖 16,000 余个跨领域数据库，样本涵盖多种复杂度层级和语言风格。

AI教程

2025-04-05

MegaTTS 3是字节跳动与浙江大学合作推出的零样本文本到语音合成系统，采用轻量级扩散模型，参数量仅0.45B，能高效生成高质量语音。系统将语音分解为内容、音色、韵律等属性分别建模，支持中文、英文及中英混合语音合成，具备超高音质的语音克隆能力，几秒音频样本能模仿目标声音。

AI教程

2025-04-05

AutoGLM沉思是智谱推出的首个免费、具备深度研究和操作能力的AI Agent，能模拟人类思维过程，处理复杂的开放式问题。AutoGLM沉思具备强大的推理能力和自主操作能力，支持进行多步骤的深度思考，像人类一样自主浏览和操作网页，完成从数据检索、分析到生成报告。

AI教程

2025-04-05

cpmGO （小钢炮超级助手）是面壁智能推出的全球首个纯端侧智能助手，专为汽车智能座舱设计。cpmGO 基于面壁小钢炮MiniCPM 端侧模型开发，具备视觉、语音、多模态交互、图形UI交互等丰富能力，实现舱外至舱内的全链条感知、决策与执行。

AI教程

2025-04-05

AReaL-boba 是蚂蚁技术研究院和清华大学联合推出的开源强化学习训练框架。AReaL-boba是 AReaL 的升级版本，降低了强化学习训练门槛，用户能轻松训练推理模型。

AI教程

2025-04-05

Qlib 是微软亚洲研究院推出的面向金融行业的AI量化投资工具，帮助量化研究者探索 AI 技术在投资领域的潜力。Qlib提供高性能的数据处理基础设施，支持从数据获取、模型训练到投资组合管理的全流程。

AI教程

2025-04-05