AI教程 - 智汇AI

混元图生视频 – 腾讯混元开源的图生视频模型

混元图生视频是腾讯混元推出的开源图生视频模型，用户可以通过上传一张图片进行简短描述，让图片动起来生成5秒的短视频。模型支持对口型、动作驱动和背景音效自动生成等功能。模型适用于写实、动漫和CGI等多种角色和场景，总参数量为130亿。

AI教程

2025-04-12

什么是梯度下降（Gradient Descent）

梯度下降（Gradient Descent）是一种优化算法，用于通过迭代过程最小化损失函数，寻找模型参数的最佳值。算法从初始参数开始，计算损失函数梯度，然后沿梯度反方向调整参数，不断重复直至收敛。它包括批量、随机和小批量三种形式，各有优势和局限。

AI教程

2025-04-12

Granite 3.2 – IBM 开源的多模态系列 AI 模型

Granite 3.2 是IBM开源的多模态AI模型系列，具备强大的推理、视觉理解和预测能力。Granite 3.2包含多个版本， Granite 3.2 Instruct 提供实验性链式推理能力，显著提升复杂指令执行性能；Granite Vision 3.2 2B 是首个视觉语言模型，专注于文档理解，性能媲美更大规模模型。

AI教程

2025-04-12

什么是监督学习（Supervised Learning）

监督学习(Supervised Learning)是一种机器学习方法，通过使用带有标签的训练数据来训练算法，使其能够对新的数据进行分类或预测。它包括分类和回归任务，利用算法如支持向量机、决策树等来识别数据中的模式，并做出预测。

AI教程

2025-04-12

Resume Matcher – 开源AI简历优化工具，解析简历和职位描述提供改进建议

Resume Matcher 是开源的 AI 简历优化工具，帮助求职者提升简历通过自动化筛选系统（ATS）的概率。Resume Matcher基于解析简历和职位描述，提取关键技能、经验和资格相关的关键词，用 FastEmbed 等技术计算文本相似性，提供针对性的改进建议。

AI教程

2025-04-12

OpenManus – MetaGPT 团队推出的 Manus 开源复刻版

OpenManus 是MetaGPT 团队推出的开源复刻版 Manus，提供无需邀请码的 AI Agent 。OpenManus基于模块化设计，支持多种语言模型和工具链，能执行代码、处理文件、搜索网络信息等复杂任务。OpenManus 的核心优势在于实时反馈机制，用户能直观看到 AI 的思考过程和任务执行进度。

AI教程

2025-04-12

NEXUS-O – 多模态AI模型，实现对语言、音频和视觉全方位感知与交互

NEXUS-O 是HiThink 研究院、英国帝国理工学院、浙江大学、复旦大学、微软、Meta AI等机构推出的多模态AI模型，能实现对语言、音频和视觉信息的全方位感知与交互。NEXUS-O能处理音频、图像、视频和文本的任意组合输入，用音频或文本形式输出结果。

AI教程

2025-04-12

OWL – 开源多智能体协作系统，动态交互实现任务自动化

OWL（Optimized Workforce Learning）是基于CAMEL-AI框架开发的多智能体协作系统，通过智能体之间的动态交互实现高效的任务自动化。通过角色分配和任务分解，让多个智能体协同完成复杂任务，例如文件解析、代码生成、网页操作等。

AI教程

2025-04-12

TicVoice 7.0 – 出门问问推出的第七代语音合成引擎

TicVoice 7.0 是出门问问推出的第七代高品质 TTS（语音合成）引擎，基于新一代语音生成模型 Spark-TTS 。TicVoice 7.0基于创新的 BiCodec 编码方式，将语音分解为 Global Token 和 Semantic Tokens，实现音色与语义的精准控制，与文本 LLMs 结构高度统一。

AI教程

2025-04-12

GEN3C – NVIDIA 联合多伦多大学等推出的生成式视频模型

GEN3C 是NVIDIA、多伦多大学和向量研究所推出的新型生成式视频模型，基于精确的相机控制和时空一致性生成高质量的 3D 视频内容。GEN3C构建基于点云的 3D 缓存指导视频生成，用输入图像或视频帧的深度估计反投影生成 3D 场景，根据用户提供的相机轨迹渲染 2D 视频，作为生成模型的条件输入。

AI教程

2025-04-12