AI教程

VACE – 阿里通义推出的视频生成与编辑框架

VACE(Video Creation and Editing)是阿里巴巴通义实验室推出的一站式视频生成与编辑框架。基于整合多种视频任务(如参考视频生成、视频到视频编辑、遮罩编辑等)到一个统一模型中,实现高效的内容创作和编辑功能。VACE的核心在于Video Condition Unit(VCU),将文本、图像、视频和遮罩等多种模态输入整合为统一的条件单元,支持多种任务的灵活组合。

什么是审议对齐(Deliberative Alignment)

审议对齐(Deliberative Alignment)是OpenAI提出的一种新的训练方法,旨在提高大型语言模型的安全性和可靠性。这种方法通过结合基于过程和结果的监督,让模型在产生答案之前明确地通过安全规范进行复杂推理。

Seedream 2.0 – 字节豆包推出的原生中英双语图像生成模型

Seedream 2.0 是字节跳动豆包大模型团队推出的原生中英双语图像生成模型,解决现有模型在文本渲染、文化理解等方面的不足。模型通过自研的双语大语言模型(LLM)作为文本编码器,能直接从海量数据中学习本土知识,生成具有准确文化细节和审美表达的高保真图像。

什么是指令调优(Instruction Tuning, IT)

指令调优(Instruction Tuning, IT)是一种针对大型语言模型(Large Language Models,简称LLMs)的训练方法,旨在提高模型遵循自然语言指令并完成现实世界任务的能力。这种方法通过在由(Instruction, Output)对组成的数据集上以有监督的方式对LLMs进行进一步训练,弥补了LLM的下一个单词预测目标与用户让LLM遵循人类指令的目标之间的差距。

PP-DocBee – 百度飞桨推出的文档图像理解多模态大模型

PP-DocBee是百度飞桨(PaddlePaddle)团队推出的专注于文档图像理解的多模态大模型。基于ViT+MLP+LLM架构,具备强大的中文文档解析能力,能高效处理文字、表格、图表等多类型文档内容。PP-DocBee在学术界权威评测中达到同参数量模型的SOTA水平,在内部业务中文场景中表现优异。

什么是视觉语言模型(Vision-Language Models, VLMs)

视觉语言模型(Vision-Language Models, VLMs)是一种多模态人工智能系统,它结合了图像和文本的处理能力,以执行高级视觉语言任务,如视觉问答(Visual Question Answering, VQA)、图像字幕生成、文本到图像搜索等。

BEHAVIOR Robot Suite – 李飞飞团队开源的机器人家庭任务自动化框架

BEHAVIOR Robot Suite(BRS)是斯坦福大学李飞飞团队推出的用在学习全身操作完成日常家务任务的框架。基于分析家务活动,确定机器人需要具备的关键能力,包括双臂协调、稳定导航和广泛的末端执行器可达性。

什么是欠拟合(Underfitting)

欠拟合(Underfitting)是指机器学习模型在训练数据上的表现不够好,导致在测试数据上也表现不佳。发生在模型过于简单,无法捕捉到数据中的复杂模式时。欠拟合模型的训练误差和测试误差都较高,说明模型既没有学好训练数据,也无法在测试集上表现良好。

MM-StoryAgent – 上海交大联合阿里开源的多智能体故事绘本视频生成框架

MM-StoryAgent 是上海交通大学X-LANCE实验室和阿里巴巴集团联合推出的开源、多模态、多智能体框架,用在生成沉浸式的有声故事绘本视频。基于结合大型语言模型(LLMs)和多种模态的生成工具(如文本、图像、音频),用多阶段写作流程和模态特定的提示修订机制,提升故事的吸引力和沉浸感。

什么是鲁棒性(Robustness)

鲁棒性(Robustness)是指一个系统、模型或实体在面对输入数据中的扰动、噪声、异常值或设计参数变化时,仍能保持其预期功能、性能稳定且结果准确的能力。鲁棒性体现了系统在不确定性和异常情况下的生存能力,即在遭遇错误条件或意外情况时保持功能和性能的能力。