AI教程

什么是知识图谱问答(KGQA)

知识图谱问答(KGQA)是一种结合知识图谱和自然语言处理技术的系统,旨在通过理解用户的自然语言问题,从结构化的知识图谱中检索并生成准确的答案。

IMAGPose – 南京理工大学推出姿态引导图像生成的统一框架

IMAGPose 是南京理工大学推出的用于人体姿态引导图像生成的统一条件框架。解决传统方法在姿态引导的人物图像生成中存在的局限性,如无法同时生成多个不同姿态的目标图像、从多视角源图像生成目标图像受限,以及使用冻结的图像编码器导致人物图像细节信息丢失等问题。

什么是向量数据库(Vector database)

向量数据库是专门用来存储和查询向量的数据库系统。用于表示多维度的数据点,例如在机器学习和人工智能中使用的数据。在向量数据库中,数据被表示为向量,这些向量可以在多维空间中进行比较和搜索。

Heygem – 硅基智能推出的开源数字人模型

Heygem 是硅基智能推出的开源数字人模型,专为 Windows 系统设计。基于先进的AI技术,仅需 1 秒视频或 1 张照片,能在 30 秒内完成数字人形象和声音克隆,在 60 秒内合成 4K 超高清视频。Heygem支持多语言输出、多表情动作,具备 100% 口型匹配能力,在复杂光影或遮挡场景下能保持高度逼真的效果。

什么是数据挖掘(Data Mining)

数据挖掘(Data Mining)是一种从大型数据集中发现模式和其他有价值信息的过程。利用机器学习和统计分析技术,从海量数据中提取有用信息,帮助组织做出更明智的决策。简而言之,数据挖掘的目的是将原始数据转化为实用的知识,解决实际问题、分析业务决策对未来的影响。

LanDiff – 高质量文本到视频生成的混合框架

LanDiff是用于高质量的文本到视频(T2V)生成的创新混合框架,结合了自回归语言模型(LLM)和扩散模型(Diffusion Model)的优势,通过粗到细的生成方式,有效克服了单一方法在语义理解和视觉质量上的局限性。

什么是检索增强生成(Retrieval-Augmented Generation, RAG)

检索增强生成(Retrieval-Augmented Generation, RAG)是一种结合了信息检索(IR)和自然语言生成(NLG)的技术。它通过从外部知识库中检索相关信息来增强大型语言模型(LLM)的输出,从而提高生成文本的准确性、相关性和时效性。

FoxBrain – 鸿海研究院推出的推理大语言模型

FoxBrain 是鸿海研究院推出的繁体中文大型语言模型(LLM),具有强大的推理能力。基于 Meta Llama 3.1 架构,拥有 70B 参数,专注于数学和逻辑推理领域。FoxBrain 基于高效训练策略,用四周时间完成训练,使用 120 张 NVIDIA H100 GPU,展现了高效率和低成本的特点。

COMET – 字节开源的通信优化系统

COMET是字节跳动推出的针对Mixture-of-Experts(MoE)模型的优化系统,能解决分布式训练中通信开销过大的问题。基于细粒度的计算-通信重叠技术,COMET将通信与计算操作深度融合,消除传统方法中因粒度不匹配导致的资源浪费和延迟。

什么是端到端学习(End-to-End Learning)

端到端学习(End-to-End Learning)是一种机器学习和深度学习中的设计方法论,支持模型直接从输入数据学习到所需的输出结果,不需要人为地将任务分割成多个独立的子任务或模块。这种方法的核心在于简化流程,通过一个统一的模型来学习输入和输出之间的映射关系,避免了传统方法中复杂的特征工程和模块化设计。