
AI教程
Qwen2.5-Omni 阿里开源的端到端多模态模型
Qwen2.5-Omni 是阿里开源的 Qwen 系列旗舰级多模态模型,拥有7B参数,Qwen2.5-Omni具备强大的多模态感知能力,能处理文本、图像、音频和视频输入,支持流式文本生成与自然语音合成输出,能实现实时语音和视频聊天。
Cosmos-Reason1 NVIDIA推出的系列多模态大语言模型
Cosmos-Reason1 是 NVIDIA 推出的一系列多模态大型语言模型,基于物理常识和具身推理理解物理世界。Cosmos-Reason1包括两个模型:Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。模型基于视觉输入感知世界,经过长链思考后生成自然语言响应,涵盖解释性见解和具身决策(如下一步行动)。
RF-DETR Roboflow推出的实时目标检测模型
RF-DETR是Roboflow推出的实时目标检测模型。RF-DETR是首个在COCO数据集上达到60+平均精度均值(mAP)的实时模型,性能优于现有的目标检测模型。RF-DETR结合LW-DETR与预训练的DINOv2主干,具备强大的领域适应性。
Bolt3D 牛津大学联合谷歌推出的 3D 场景生成技术
Bolt3D 是谷歌研究院、牛津大学 VGG 团队和谷歌 DeepMind 联合推出的新型 3D 场景生成技术,是潜在扩散模型,能在单个 GPU 上,仅需不到七秒的时间,直接从一张或多张图像中采样出 3D 场景表示。
Piece it Together Bria AI等机构推出的图像生成框架
Piece it Together (PiT)是Bria AI等机构推出的创新图像生成框架,专门用在从部分视觉组件生成完整的概念图像。基于特定领域的先验知识,将用户提供的碎片化视觉元素无缝整合到连贯的整体中,智能补充缺失的部分,生成完整且富有创意的概念图像。
TripoSR Stability AI 联合 VAST 开源的 3D 生成模型
TripoSR是Stability AI和VAST联合推出的开源3D生成模型,能在不到0.5秒内从单张2D图像快速生成高质量的3D模型。模型基于Transformer架构,采用了大型重建模型(LRM)的原理,对数据处理、模型设计和训练技术进行了多项改进。
ModelEngine 华为开源的全流程 AI 开发工具链
ModelEngine 是华为开源的全流程 AI 开发工具链,围绕数据使能、模型使能和应用使能三大核心功能展开,解决 AI 行业化落地过程中数据工程耗时长、模型训练和应用落地难的关键问题。
BizGen 清华大学联合微软推出的AI信息图生成工具
BizGen是清华大学和微软研究院联合推出的AI信息图生成工具,专注于文章级别的视觉文本渲染。能一键将长篇文章内容转化为专业级的信息图和幻灯片,解决传统工具在处理长文本时文字模糊、排版混乱的问题。
Ideogram 3.0 Ideogram推出的 AI 图像生成模型
Ideogram 3.0 是Ideogram推出的 AI 图像生成模型。Ideogram 3.0在图像生成质量上实现飞跃,具备高度的真实感、出色的文本渲染和强大的语言理解能力,支持生成复杂场景和精细的光影色彩效果。用户基于上传参考图像或随机风格探索功能,快速指定难以用文字描述的美学风格,实现更高效、更具表现力的创作流程。
QVQ-Max 阿里通义推出的视觉推理模型
QVQ-Max 是阿里通义推出的视觉推理模型,是QVQ-72B-Preview的正式升级版。QVQ-Max能“看懂”图片和视频内容,结合信息进行分析、推理和解决问题。QVQ-Max支持应用于学习、工作和生活场景,如解答数学难题、协助数据分析、提供穿搭建议等。