
AI教程
MagicArticulate – 南洋理工和字节推出的静态 3D 模型转骨架生成框架
MagicArticulate 是南洋理工大学和字节跳动Seed实验室推出的自动将静态 3D 模型转换为可动画化资产的框架。MagicArticulate基于自回归生成骨架,预测蒙皮权重,使模型能支持逼真的动画。MagicArticulate引入 Articulation-XL 数据集,包含超过 33,000 个高质量关节注释的 3D 模型,推出一种基于自回归 Transformer 的骨架生成方法,自然处理不同模型中骨骼数量和依赖关系的变化。
TANGLED – 上海科大联合华中科大等推出的3D发型生成方法
TANGLED是上海科技大学、Deemos Technology和华中科技大学联合推出的3D发型生成方法,支持从任意风格和视角的图像中生成高质量的3D发丝。TANGLED基于三个核心步骤实现:用多样化的MultiHair数据集提供丰富的发型样本;基于多视图线稿的扩散框架,用线稿特征的交叉注意力捕捉发型的拓扑结构;基于参数化后处理模块修复复杂发型(如辫子)的细节。
Llasa TTS – 香港科技大学开源的文本转语音模型
Llasa TTS 是香港科技大学基于 LLaMA 架构推出的开源文本转语音(TTS)模型,支持高质量语音合成和克隆。Llasa TTS 基于单层向量量化(VQ)编解码器和单个 Transformer 架构,与标准 LLaMA 模型完全对齐,生成自然流畅的语音,支持情感表达和音色克隆等功能。
什么是神经网络剪枝(Neural Network Pruning)
神经网络剪枝(Neural Network Pruning)是一种模型压缩技术,通过移除神经网络中不重要的权重或神经元来减小模型大小和计算复杂度,从而提高运行效率。分为权重剪枝和神经元剪枝,可以在训练前、中、后进行,在保持模型性能的同时减少资源消耗,适合边缘计算和实时应用。
AingDesk – 开源AI客户端工具,一键部署上百款 AI 模型到个人电脑
AingDesk 是开源的客户端软件,帮助用户快速将上百款 AI 模型部署到个人电脑上。通过一键部署功能,简化复杂的模型安装过程,没有技术背景的用户也能轻松上手。AingDesk 支持联网搜索,能通过百度、搜狗等搜索引擎获取实时信息,提升 AI 回答的准确性和时效性。
什么是序列生成模型(Sequence Generation Models)
序列生成模型(Sequence Generation Models)是一类深度学习模型,专注于处理输入和输出均为序列数据的问题。通过学习序列中的时间依赖性和模式,用于生成新的数据序列,常见于自然语言处理、语音合成和音乐创作等领域。这些模型包括循环神经网络(RNN)、长短时记忆网络(LSTM)和变压器(Transformer),能够捕捉长期依赖关系并生成符合特定语境的新序列。
LazyLLM – 商汤大装置开源的多智能体应用开发平台
LazyLLM 是开源的低代码平台,帮助开发者快速、低成本地构建多智能体大语言模型应用。通过极简的开发流程,支持一键式部署和跨平台操作,降低了 AI 应用开发的门槛。开发者可以通过简单的代码实现复杂的 AI 应用,例如聊天机器人、检索增强生成(RAG)和多模态应用。
什么是思维链(Chain of Thought,CoT)
思维链(Chain of Thought,CoT)是人工智能领域的一项突破性进展,通过模拟人类解决问题时的思考过程,赋予机器更深层次的逻辑推理能力。在面对需要多步骤逻辑推理的复杂问题时,CoT技术能引导大型语言模型逐步分析问题,生成中间推理步骤,最终得出准确答案。
memobase – 基于用户画像的长期记忆系统
memobase 是开源的基于用户画像的长期记忆系统,专为生成式人工智能(GenAI)应用设计。memobase能为虚拟助手、教育工具等应用提供用户记忆功能,帮助AI记住、理解和与用户共同成长。memobase 提供结构化的用户信息存储,支持时间感知记忆、灵活配置和快速批处理,易于基于API和多种SDK集成到现有系统中。
什么是语音合成(Speech Synthesis)
语音合成(Speech Synthesis)是一种将文本信息转换为口语的技术。模拟人类发音机制,通过分析文本内容,提取语言特征,再利用声学模型转换成声音信号,最终由设备“朗读”出来。这项技术广泛应用于智能助手、有声阅读、导航系统等领域,极大地促进了人机交互的自然性和便捷性。