
AI教程
VideoPainter – 港中文联合腾讯等机构推出的视频修复和编辑框架
VideoPainter 是香港中文大学、腾讯ARC Lab、东京大学、澳门大学等机构推出的视频修复和编辑框架,专门用在处理任意长度的视频内容。VideoPainter基于双分支架构,结合轻量级上下文编码器和预训练的扩散模型,实现高效的背景保留和前景生成。
TrajectoryCrafter – 腾讯和港中文推出的单目视频自由运镜技术
TrajectoryCrafter 是腾讯PCG ARC Lab和香港中文大学推出的,用在单目视频的相机轨迹重定向方法,支持在后期自由调整视频的相机位置和角度,轻松改变视频中的运镜方式。TrajectoryCrafter基于解耦视图变换和内容生成,用双流条件视频扩散模型,将点云渲染和源视频作为条件,实现对用户指定相机轨迹的精确控制和高质量的 4D 内容生成。
LanPaint – 零训练 AI 图像修复工具
LanPaint 是 为Stable Diffusion 模型设计的高质量图像修复工具,无需额外训练实现精准的图像修复和替换。LanPaint基于多轮迭代推理优化修复效果,支持无缝且准确的修复结果。LanPaint 提供简单易用的集成方式,与 ComfyUI 的工作流程一致,用户替换默认的采样器节点即可使用。
START – 阿里联合中科大推出的自学推理模型
START(Self-Taught Reasoner with Tools)是阿里巴巴集团和中国科学技术大学推出的新型工具增强型推理模型,结合外部工具(如Python代码执行器)提升大型语言模型(LLMs)的推理能力。START基于“Hint-infer”技术在推理过程中插入提示,激发模型使用外部工具,基于“Hint-RFT”框架进行自学习和微调。
SeedFoley – 字节推出的端到端视频音效生成模型
SeedFoley 是字节跳动豆包大模型语音团队开发的端到端视频音效生成模型,为视频创作提供智能音效生成服务。通过融合时空视频特征与扩散生成模型,实现音效与视频的高度同步。模型采用快慢特征组合的视频编码器,提取视频的时空特征,同时基于原始波形作为输入的音频表征模型,保留高频信息,提升音效细腻程度。
什么是过拟合(Overfitting)
过拟合(Overfitting)是指模型在训练数据上表现得过于完美,以至于无法对新数据做出准确预测的现象。发生在模型过于复杂或者训练时间过长时,模型开始学习训练数据中的“噪声”或无关信息。过拟合的模型在训练集上的误差率很低,但在测试集上的误差率很高,这表明模型无法泛化到新数据。
R1-Omni – 阿里通义开源的全模态大语言模型
R1-Omni 是阿里通义推出的基于强化学习(RLVR)的全模态大语言模型,专注于情感识别任务。通过结合视觉和音频信息,能清晰地解释情感识别的推理过程,展现出强大的情感理解能力。
什么是数字孪生(Digital Twin)
数字孪生(Digital Twin)是指一个物理实体或系统的虚拟数字副本,通过实时数据更新来精确反映其物理对应物的状态和行为。 数字孪生跨越对象的生命周期,利用模拟、机器学习和推理来帮助做出决策。 包括三个核心部分:物理实体、数字模型和数据连接,其中数据连接包括传感器、数据采集、存储和分析等技术。
DeepSeek百宝箱 – DeepSeek API在多种软件中的集成应用
DeepSeek百宝箱是 DeepSeek官方维护的 GitHub 项目,展示如何将 DeepSeek API 集成到各种流行软件中。项目列出了一系列支持 DeepSeek 的工具和应用,涵盖了从桌面端到移动端的多种平台。
什么是光学字符识别(Optical Character Recognition, OCR)
光学字符识别(Optical Character Recognition,OCR)是一种将文本图像转换为机器可读格式的技术。通过自动数据提取,能快速识别扫描文档、相机图像和图像PDF中的文本信息。OCR软件将图像中的字母识别为字符,组合成单词,再形成句子,实现对原始内容的访问和编辑。