
AI教程
HumanOmni – 阿里通义等推出专注人类中心场景的多模态大模型
HumanOmni 是专注于人类中心场景的多模态大模型,视觉和听觉模态融合而成。通过处理视频、音频或两者的结合输入,能全面理解人类行为、情感和交互。模型基于超过240万视频片段和1400万条指令进行预训练,采用动态权重调整机制,根据不同场景灵活融合视觉和听觉信息。
什么是图神经网络(Graph Neural Networks, GNNs)
图神经网络(Graph Neural Networks, GNNs)是一种专门处理图结构数据的深度学习模型。它通过节点和边的关系来学习图中每个节点的表示,广泛应用于节点分类、图分类和链接预测等任务。GNN能有效捕捉节点间的复杂关系,对社交网络分析、推荐系统、生物信息学等领域具有重要应用价值。
Spark-TTS – AI文本转语音工具,支持中英零样本语音克隆
Spark-TTS 是SparkAudio 团队开源的基于大型语言模型(LLM)的高效文本转语音(TTS)工具, 无需额外的生成模型,直接从 LLM 预测的编码中重建音频,实现零样本文本到语音的转换。Spark-TTS 支持中英双语,具备跨语言合成能力,可通过参数调整(如性别、音调、语速)生成虚拟说话者的声音,满足多样化需求。
什么是可解释性AI(Explainable AI, XAI)
可解释性AI(Explainable AI, XAI)指的是设计智能系统时,使其决策过程对人类用户透明、可理解。意味着XAI能提供清晰的解释,说明如何从输入数据到最终决策的每一步。这样的系统旨在增强用户对AI决策的信任,满足监管要求,支持用户在必要时进行干预。XAI对于提升人工智能的透明度、公平性和责任感至关重要。
ViDoRAG – 通义联合中科大、上交大推出的视觉文档检索增强生成框架
ViDoRAG是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架。基于多智能体协作和动态迭代推理,解决传统方法在处理复杂视觉文档时的检索和推理局限性。ViDoRAG用高斯混合模型(GMM)的多模态混合检索策略,动态调整检索结果数量,优化文本和视觉信息的整合。
什么是深度强化学习(Deep Reinforcement Learning)
深度强化学习(Deep Reinforcement Learning)是人工智能领域中一个激动人心的交叉学科,融合了深度学习的感知能力和强化学习的决策制定能力。通过智能体与环境的交互,不断学习如何做出最优选择,实现复杂任务的自动化和智能化。深度强化学习在游戏、机器人控制和自动驾驶等领域展现出巨大潜力,正逐步推动着智能系统向更高级别的自主性和适应性发展。
Shandu – AI研究工具,自动进行多层次信息挖掘和分析
Shandu 是开源的 AI 研究自动化工具,结合了 LangChain 和 LangGraph 技术,能自动化地进行多层次信息挖掘和分析,生成结构化的研究报告。Shandu 的核心功能包括递归探索、多引擎搜索、智能网页爬取以及报告生成。
LCVD – 川大推出的光照可控肖像动画生成框架
LCVD(Lighting Controllable Video Diffusion Model)是四川大学推出的高保真、光照可控的肖像动画生成框架。LCVD基于分离肖像的内在特征(如身份和外观)与外在特征(如姿态和光照),参考适配器和阴影适配器将特征分别映射到不同的子空间中。
SepLLM – 基于分隔符压缩加速大语言模型的高效框架
SepLLM是香港大学、华为诺亚方舟实验室等机构联合提出的用于加速大语言模型(LLM)的高效框架,通过压缩段落信息并消除冗余标记,显著提高了模型的推理速度和计算效率。SepLLM的核心是利用分隔符(如标点符号)对注意力机制的贡献,将段落信息压缩到这些标记中,减少计算负担。
什么是协同过滤(Collaborative Filtering)
协同过滤(Collaborative Filtering)是一种推荐系统技术,它通过分析用户之间的相似性或用户对项目的评价,预测用户可能喜欢的项目。这种技术可以基于用户(找到相似用户的喜好)或基于项目(推荐与用户已喜欢项目相似的新项目)。协同过滤广泛应用于电商、视频和音乐平台,以提供个性化推荐,增加用户参与度和满意度。