
AI教程
Mercury Coder – Inception Labs 推出的商业级扩散大型语言模型
Mercury Coder 是 Inception Labs 推出的首个扩散型大语言模型(dLLM),是 Mercury 系列中专门用在代码生成的模型。Mercury Coder基于“从粗到细”的生成方式,突破传统自回归模型的顺序生成限制,速度可达每秒1000个token以上,比现有优化型模型快5-10倍。
GCDance – 萨里大学和江南大学推出的3D舞蹈生成框架
GCDance(Genre-Controlled 3D Full Body Dance Generation Driven by Music)是英国萨里大学和江南大学推出的3D舞蹈生成框架,能根据音乐和文本提示生成符合特定风格的全身舞蹈序列。GCDance结合预训练的音乐基础模型(如Wav2CLIP)提取的高级音乐特征和手工设计的音乐特征(如STFT),实现多粒度音乐特征融合,用CLIP模型将文本提示嵌入到舞蹈生成的每个时间步中,实现风格可控的舞蹈生成。
什么是模式识别(Pattern Recognition)
模式识别(Pattern Recognition)是信息科学和人工智能领域的一个重要分支,对事物或现象的各种形式的信息(数值的、文字的和逻辑关系的)进行处理和分析,实现对这些事物或现象的描述、辨认、分类和解释。
LaWGPT – 南京大学推出的中文法律大语言模型
LaWGPT 是南京大学推出的中文法律大语言模型,基于 LLaMA 模型进行二次预训练,融入大量中文法律知识。专注于法律领域,能理解和生成与法律相关的文本,适用于法律咨询、案例分析、法律文件生成等多种场景。
什么是推理(Inference)
推理(Inference)指的是经过训练的AI模型识别模式并从以前从未见过的信息中得出结论的能力。AI推理是AI模型生命周期中的关键阶段,发生在模型训练之后,当模型需要对新数据进行预测或解决任务时。
autoMate – AI本地自动化工具,自然语言实现自动化任务操作
autoMate是基于AI和RPA的本地自动化工具,用自然语言实现复杂任务的自动化操作。autoMate基于大型语言模型,用户无需编程知识,用自然语言描述任务,能完成计算机界面操作、复杂工作流执行及智能决策。
什么是思维树(Tree of Thought, ToT)
思维树(Tree of Thought, ToT)是一个开创性的框架,旨在增强大型语言模型(LLM)的推理能力。这种方法模拟了人类解决问题的认知策略,使LLM能够以结构化的方式探索多种可能的解决方案,类似于树状分支路径。
URO-Bench – AI基准测试工具,专为端到端语音对话模型设计
URO-Bench 是面向端到端语音对话模型(SDMs)的全面基准测试工具。涵盖了多语言、多轮对话、副语言信息等多维度任务,全面评估语音对话模型的性能。
什么是OS Agents
OS Agents 是能理解和执行复杂任务的智能体,它们通过操作系统提供的接口与计算设备交互,自动完成从简单到复杂的各种任务。任务可以是信息检索、文件管理、在线购物、预订差旅等日常活动。
Nanobrowser – AI网页自动化工具,自主完成复杂的网页任务
Nanobrowser 是开源的 Chrome 扩展工具,专注于 AI 驱动的网页自动化。Nanobrowser基于多智能体系统实现复杂的网页任务,如信息提取、自动化操作等。用户用自己的 LLM API 密钥,灵活选择不同的模型为不同智能体提供支持。