关闭

AI教程

什么是TTS(Text To Speech)

TTS(Text to Speech)即文本转语音技术。是一种将文本信息转化为自然语音输出的技术。通过TTS技术,计算机可以将输入的文本自动转换成自然语音,模拟出人类说话的声音,实现机器与人的语音交互。

DINO-XSeek – IDEA 研究院推出的多模态目标检测模型

DINO-XSeek 是 IDEA 研究院推出的多模态目标检测模型,结合视觉感知和自然语言理解能力。DINO-XSeek基于复杂的语言描述精准定位图像中的目标,识别目标的属性(如颜色、形状、动作等)、位置关系及交互情况。模型基于 DINO-X 统一视觉模型,用检索式框架,先检测图像中的所有物体,再用大语言模型从候选目标中检索最相关的对象。

什么是跨模态泛化(Cross-Modal Generalization)

跨模态泛化(Cross-Modal Generalization)是指利用在一个或多个特定模态上学习到的知识,来提升系统在新的、未见过的模态上的性能。适用于多模态学习任务,模型需要处理和理解不同类型的数据,如文本、图像、声音等。跨模态泛化的关键在于如何有效地将在某些模态上学习到的知识迁移到其他模态上,即使这些模态在表现形式上可能完全不同。

AppAgentX – 西湖大学推出的自我进化式 GUI 代理框架

AppAgentX 是西湖大学推出的新型自我进化式 GUI(图形用户界面)代理框架,基于从执行历史中抽象出高级动作提升代理在智能手机交互中的效率和智能性。AppAgentX结合记忆机制和进化机制,记录任务执行过程,识别重复操作序列,替换为更高效的高级动作,减少对逐级推理的依赖。

什么是专家系统(Expert System, ES)

专家系统(Expert System, ES)是人工智能领域的一个重要应用研究领域。是一种智能计算机程序系统,内部含有大量的某个领域专家水平的知识与经验。专家系统能利用人类专家的知识和解决问题的方法来处理该领域问题,以人类专家的水平完成特别困难的某一专业领域的任务。简而言之,专家系统是一种模拟人类专家解决领域问题的计算机程序系统。

GO-1 – 智元机器人推出的首个通用具身基座模型

GO-1(Genie Operator-1,智元启元大模型)是智元机器人推出的首个通用具身基座模型。模型采用Vision-Language-Latent-Action(ViLLA)架构,由VLM(多模态大模型)和MoE(混合专家)组成。

什么是代理型AI(Agentic AI)

代理型AI(Agentic AI)是一种人工智能系统,能自主行动和决策。这些系统被称为AI代理,可以独立于直接人类干预追求目标。代理型AI使用高级技术,如强化学习和进化算法,在模糊和新颖的环境中导航。

Gemini Embedding – 谷歌推出的文本嵌入模型

Gemini Embedding 是 Google 推出的先进的文本嵌入模型,基于将文本转化为高维数值向量,捕捉其语义和上下文信息。Gemini Embedding基于 Gemini 模型训练,具备强大的语言理解能力,支持超过100种语言,在多语言文本嵌入基准测试(MTEB)中排名第一。

什么是扩散模型(Diffusion Models)

扩散模型(Diffusion Models)是一种深度生成模型,通过模拟数据从有序状态向无序状态的扩散过程,以及相反的从无序状态恢复到有序状态的逆扩散过程,实现了从简单分布到复杂数据分布的生成。这种模型在图像、文本和音频等多个领域内产生高质量的结果。

DoraCycle – 新加坡国立大学推出多模态领域适应的统一生成模型

DoraCycle 是新加坡国立大学 Show Lab 推出多模态领域适应的统一生成模型,通过两个多模态循环(text-to-image-to-text 和 image-to-text-to-image)实现不同模态间的信息转换与对齐,基于统一生成模型学习的双向映射,以非配对数据进行领域适配训练,无需大量标注数据。