AI教程 - 智汇AI

Mercury Coder – Inception Labs 推出的商业级扩散大型语言模型

Mercury Coder 是 Inception Labs 推出的首个扩散型大语言模型（dLLM），是 Mercury 系列中专门用在代码生成的模型。Mercury Coder基于“从粗到细”的生成方式，突破传统自回归模型的顺序生成限制，速度可达每秒1000个token以上，比现有优化型模型快5-10倍。

AI教程

2025-04-12

GCDance – 萨里大学和江南大学推出的3D舞蹈生成框架

GCDance（Genre-Controlled 3D Full Body Dance Generation Driven by Music）是英国萨里大学和江南大学推出的3D舞蹈生成框架，能根据音乐和文本提示生成符合特定风格的全身舞蹈序列。GCDance结合预训练的音乐基础模型（如Wav2CLIP）提取的高级音乐特征和手工设计的音乐特征（如STFT），实现多粒度音乐特征融合，用CLIP模型将文本提示嵌入到舞蹈生成的每个时间步中，实现风格可控的舞蹈生成。

AI教程

2025-04-11

什么是模式识别（Pattern Recognition）

模式识别（Pattern Recognition）是信息科学和人工智能领域的一个重要分支，对事物或现象的各种形式的信息（数值的、文字的和逻辑关系的）进行处理和分析，实现对这些事物或现象的描述、辨认、分类和解释。

AI教程

2025-04-11

LaWGPT – 南京大学推出的中文法律大语言模型

LaWGPT 是南京大学推出的中文法律大语言模型，基于 LLaMA 模型进行二次预训练，融入大量中文法律知识。专注于法律领域，能理解和生成与法律相关的文本，适用于法律咨询、案例分析、法律文件生成等多种场景。

AI教程

2025-04-11

什么是推理（Inference）

推理（Inference）指的是经过训练的AI模型识别模式并从以前从未见过的信息中得出结论的能力。AI推理是AI模型生命周期中的关键阶段，发生在模型训练之后，当模型需要对新数据进行预测或解决任务时。

AI教程

2025-04-11

autoMate – AI本地自动化工具，自然语言实现自动化任务操作

autoMate是基于AI和RPA的本地自动化工具，用自然语言实现复杂任务的自动化操作。autoMate基于大型语言模型，用户无需编程知识，用自然语言描述任务，能完成计算机界面操作、复杂工作流执行及智能决策。

AI教程

2025-04-11

什么是思维树（Tree of Thought, ToT）

思维树（Tree of Thought, ToT）是一个开创性的框架，旨在增强大型语言模型（LLM）的推理能力。这种方法模拟了人类解决问题的认知策略，使LLM能够以结构化的方式探索多种可能的解决方案，类似于树状分支路径。

AI教程

2025-04-11

URO-Bench – AI基准测试工具，专为端到端语音对话模型设计

URO-Bench 是面向端到端语音对话模型（SDMs）的全面基准测试工具。涵盖了多语言、多轮对话、副语言信息等多维度任务，全面评估语音对话模型的性能。

AI教程

2025-04-11

什么是OS Agents

OS Agents 是能理解和执行复杂任务的智能体，它们通过操作系统提供的接口与计算设备交互，自动完成从简单到复杂的各种任务。任务可以是信息检索、文件管理、在线购物、预订差旅等日常活动。

AI教程

2025-04-11

Nanobrowser – AI网页自动化工具，自主完成复杂的网页任务

Nanobrowser 是开源的 Chrome 扩展工具，专注于 AI 驱动的网页自动化。Nanobrowser基于多智能体系统实现复杂的网页任务，如信息提取、自动化操作等。用户用自己的 LLM API 密钥，灵活选择不同的模型为不同智能体提供支持。

AI教程

2025-04-11