AI教程

Open-Sora 2.0 – 潞晨科技开源的AI视频生成模型

Open-Sora 2.0 是潞晨科技推出的全新开源SOTA(State-of-the-Art)视频生成模型。Open-Sora 2.0 用 20 万美元(224 张 GPU)成功训练出 11B 参数的商业级模型,相比传统高性能视频生成模型大幅降低了训练成本。

什么是隐藏层(Hidden Layer)

隐藏层(Hidden Layer)是人工神经网络中的中间层,位于输入层和输出层之间。作用是对输入数据进行特征提取和变换,为最终的输出层提供高层次特征。隐藏层之所以称为“隐藏”,是因为其输出对外界不可见,只在网络内部流通。

Gemini Robotics – 谷歌 DeepMind 推出的具身智能大模型

Gemini Robotics 是谷歌 DeepMind 推出的基于 Gemini 2.0 的机器人项目,将大型多模态模型的能力引入物理世界。项目包含两个主要模型:Gemini Robotics-ER 和 Gemini Robotics。Gemini Robotics-ER 是增强版的视觉-语言模型(VLM),具备强大的具身推理能力,支持理解三维空间、物体检测、指向、轨迹和抓取预测等任务。

PP-TableMagic – 百度飞桨团队开源的表格识别工具

PP-TableMagic 是百度飞桨团队推出的高性能表格识别工具,用在将图片中的表格结构化信息提取出来,转换为 HTML 等格式,进行进一步的数据处理和分析。PP-TableMagic 用自研的轻量级表格分类模型 PP-LCNet 和业界首个开源单元格检测模型 RT-DETR,及强大的表格结构识别模型 SLANeXt,结合三阶段预训练策略,提升表格识别的精度和效率。

什么是模型量化(Model Quantization)

模型量化(Model Quantization)是深度学习模型优化中的一项关键技术,它通过减少模型参数的位宽来降低模型的存储和计算需求,从而提高模型在各种硬件平台上的运行效率。

Gemini 2.0 Flash – Google推出的多模态 AI 模型

Gemini 2.0 Flash是Google推出的多模态AI模型,结合文本理解和图像生成能力。根据自然语言输入生成高质量的图像,支持多轮对话式的图像编辑,保持上下文连贯性。模型擅长将文本与图像结合,例如为故事生成连贯的插图、根据对话修改图像风格,用世界知识生成更准确的图像(如食谱插图)。Gemini 2.0 Flash在长文本渲染方面表现出色,适用于广告、社交媒体或邀请函等场景。

什么是NeRF(Neural Radiance Fields)

NeRF(Neural Radiance Fields)是一种用于生成高质量三维重建模型的计算机视觉技术。通过深度学习技术从多个视角的图像中提取对象的几何形状和纹理信息,然后使用这些信息生成一个连续的三维辐射场,可以在任意角度和距离下呈现出高度逼真的三维模型。

TokenSwift – 超长文本生成加速框架,90分钟内生成10万Token文本

TokenSwift 是北京通用人工智能研究院团队推出的超长文本生成加速框架,能在90分钟内生成10万Token的文本,相比传统自回归模型的近5小时,速度提升了3倍,生成质量无损。TokenSwift 通过多Token生成与Token重用、动态KV缓存更新以及上下文惩罚机制等技术,减少模型加载延迟、优化缓存更新时间并确保生成多样性。

什么是面部识别(Facial Recognition)

面部识别(Facial Recognition)是一种基于人的脸部特征信息进行身份识别的生物识别技术。它通过采集含有人脸的图像或视频流,自动检测和跟踪人脸,进一步对检测到的人脸进行识别。

MIDI – AI 3D场景生成技术,能将单张图像转化为360度3D场景

MIDI(Multi-Instance Diffusion for Single Image to 3D Scene Generation)是先进的3D场景生成技术,能在短时间内将单张图像转化为高保真度的3D场景。通过智能分割输入图像,识别出场景中的独立元素,再基于多实例扩散模型,结合注意力机制,生成360度的3D场景。