AI文章

Seedream 3.0:字节跳动推出的高性能中英双语图像生成模型

Seedream 3.0是什么?Seedream 3.0 是字节跳动 Seed 团队最新发布的一款原生高分辨率、支持中英双语的图像生成基础模型。它可原生生成 2

PartEdit – KAUST推出的细粒度图像编辑方法

PartEdit是KAUST推出基于预训练扩散模型的细粒度图像编辑方法。PartEdit基于优化特定的文本标记(称为“部分标记”),让扩散模型精准定位和编辑图像中对象的各个部分。这些部分标记学习与对象部分对应的非二进制掩码,在每个扩散步骤中实现对编辑区域的定位,结合特征混合与自适应阈值策略,无缝集成编辑内容,且保留未编辑区域。

OpenAI推出了o3和o4-mini新一代模型,它们有什么特点和区别?

OpenAI 再次震撼发布两款推理模型:o3(最强推理模型) 与 o4-mini(高效轻量模型)!这次更新不仅在推理能力上实现跨越式提升,还首次引入“图像思维”功能,让 AI 真正具备“看图思考”的能力!

Agentic Object Detection – 吴恩达团队推出的Agent目标检测技术

Agentic Object Detection 是吴恩达团队开发的新型目标检测技术,通过智能代理(Agent)系统实现无需标注数据的目标检测。用户仅需输入文字提示,AI 基于推理能力识别图像中的目标,精准定位其位置和属性。

Video-R1:香港中文大学和清华大学联合推出的全球首个视频版R1模型

Video-R1是由香港中文大学和清华大学联合推出的全球首个视频版R1模型,它可以通过强化学习提升多模态大语言模型(MLLMs)的视频推理能力。

Agno – 用于构建多模态智能体的轻量级框架

Agno 是构建智能代理(Agents)的轻量级框架。Agno 支持多模态(文本、图像、音频、视频)和多代理协作,能快速创建代理,速度比 LangGraph 快 5000 倍,支持任何模型和提供商,无供应商锁定。Agno 提供内存管理和知识库支持,能将用户会话和代理状态存储在数据库中,基于向量数据库实现动态少样本学习。

UniCombine框架:支持文本提示、空间映射和主体图像的任意组合生成

UniCombine 是由复旦大学、腾讯优图实验室等机构联合推出的基于扩散变压器的多条件可控生成框架。能够处理文本提示、空间映射、主体图像等任意控制条件的组合生成任务。

Ola – 清华联合腾讯等推出的全模态语言模型

Ola是清华大学、腾讯 Hunyuan 研究团队和新加坡国立大学 S-Lab 合作开发的全模态语言模型。通过渐进式模态对齐策略,逐步扩展语言模型支持的模态,从图像和文本开始,再引入语音和视频数据,实现对多种模态的理解。

Gamma发布2.0:除了创作PPT,也能创作网站、社交媒体卡片

Gamma 2.0版本已于2025年4月16日正式发布,一款全新升级的多功能 AI 创作平台。现在的它不仅能制作PPT,还能制作网站、社交媒体广告和文档。

AlphaGeometry2 – 谷歌 DeepMind 推出解决复杂几何问题的AI系统

AlphaGeometry2 是谷歌 DeepMind 推出的先进的人工智能系统,专门用于解决国际数学奥林匹克竞赛(IMO)中的几何问题。结合了神经符号方法,将谷歌 Gemini 系列的语言模型与符号引擎协同工作,通过神经网络预测几何构造并由符号引擎进行逻辑推理。