每日AI快讯

Cosmos – 英伟达推出的生成式世界基础模型平台

Cosmos是英伟达推出的生成式世界基础模型平台,旨在加速物理人工智能(AI)系统的发展,特别是在自动驾驶和机器人领域。Cosmos能接受文本、图像或视频的提示,生成高度仿真的虚拟世界状态,为自动驾驶和机器人应用提供独特的视频输出。

优云智算 – UCloud 旗下 GPU 算力租赁平台

优云智算是UCloud优刻得旗下的GPU算力租赁平台,专注于为AI应用提供高效、灵活的算力资源。支持按需租赁,满足不同项目需求。平台拥有丰富的镜像社区,提供多种AI场景的容器镜像,如LLamaFactory和SD-webUI等,支持一键部署,快速启动AI应用。

KAG – 蚂蚁集团推出的专业领域知识服务框架

KAG(Knowledge Augmented Generation)是蚂蚁集团推出的专业领域知识服务框架,基于知识增强提升大型语言模型(LLMs)在特定领域的问答性能,为垂直领域的知识库构建逻辑推理和问答解决方案。KAG基于知识和文本块的互索引结构,整合非结构化数据、结构化信息以及业务专家经验,形成统一的业务知识图谱。

Gemini Coder – AI 应用生成工具,文本描述实时生成代码和预览

Gemini Coder 是基于 Google 的 Gemini API、Next.js 和 Tailwind CSS 的工具,用在快速生成 app 应用。Gemini Coder基于简单的描述,结合 Sandpack 实现实时代码编辑和预览,让用户能即时查看应用效果。用户只需提供应用的基本描述,系统自动生成相应的代码和界面,简化了开发流程,提高了开发效率。

AIOpsLab – 微软等机构共同开源的面向 AIOps 代理的综合 AI 框架

AIOpsLab是微软公司、加州大学伯克利分校、伊利诺伊大学香槟分校、微软研究院等机构推出的,用在构建、评估和改进云服务运营管理AIOps代理的原型框架。AIOpsLab基于模块化设计,整合应用程序、负载和故障生成器,模拟真实生产场景。AIOpsLab采用代理-云接口(ACI),提供标准化API供代理调用,支持从故障检测到根本原因分析和缓解的完整运营生命周期。

VideoRefer – 浙大联合阿里达摩学院推出的视频对象感知与推理技术

VideoRefer是浙江大学和阿里达摩学院联合推出的,专门用在视频中对象的感知和推理。基于增强视频大型语言模型(Video LLMs)的空间-时间理解能力,让模型能在视频中对任何对象进行细粒度的感知和推理。

JoyCaption – 开源的图像提示词生成工具

JoyCaption 是开源的图像提示词生成工具,用于训练扩散模型。JoyCaption 涵盖广泛的图像风格、内容、种族、性别和取向,最小化过滤理解世界的各个方面,但不支持非法内容。JoyCaption 的开发是为填补社区在图像描述生成方面的空白,提供与 GPT4o 相当的性能,且保持免费和开放。

麦橘超然 – 麦橘推出的AI文生图模型,基于 Flux.1 架构

麦橘超然(MajicFlus)是由麦橘推出的基于Flux.1架构的AI模型,专注于生成高质量的人像图像,擅长表现亚洲女性的细腻与美感。模型融合多种技术,能生成逼真的人物摄影风格,细致呈现头发、眼睛、雀斑等微小特征。

CHRONOS – 阿里通义联合上海交大等推出时间线摘要生成新框架

CHRONOS是上海交通大学计算机科学与工程系、阿里巴巴集团通义实验室等机构联合推出的,用在新闻时间线摘要生成的新型框架,基于迭代自问自答的方式,用大型语言模型(LLMs)构建开放域和封闭域的时间线。框架基于生成与新闻主题相关的5W1H问题,检索相关信息,不断提出新的子问题扩展新闻数据库。

Edicho – 蚂蚁集团联合港科大等高校推出的多图像一致性编辑方法

Edicho 是香港科技大学、蚂蚁集团、斯坦福大学和香港中文大学推出的,基于扩散模型的图像编辑方法,能在多图像间实现一致性编辑。Edicho用免训练的方法,无需额外训练即可应用。Edicho核心在于用显式图像对应关系指导编辑过程,基于注意力操作模块(Corr-Attention)和分类器自由引导(CFG)去噪策略,确保编辑在不同图像中保持一致性。