AI快讯 - 智汇AI

Gemini 2.5 Pro与Gemini 2.5相比较，有哪些提升？

Gemini 2.5 Pro是谷歌最新发布的AI模型，相比Gemini 2.5，Gemini 2.5 Pro在推理、编码、多模态支持和上下文处理等方面都优于Gemini 2.5，是谷歌目前最智能的AI模型。

AI快讯

2025-04-02

OpenAI于2025年3月25日正式宣布在GPT-4o模型中集成图像编辑和视觉生成功能，用户可以通过对话式来生成图像、修改现有视觉内容，甚至设计复杂的材料，如

AI快讯

2025-04-02

2025年3月25日，OpenAI通过一场直播活动正式发布了GPT-4o的原生图像生成功能，并将其集成到ChatGPT和Sora平台，用户可以通过文字提示生成高质量图像，甚至对现有图像进行风格化编辑。

AI快讯

2025-04-02

ScoreFlow是一种自动化多智能体工作流生成与优化方法，它通过基于梯度的连续空间优化技术，结合Score-DPO，不断改进协作流程，从而提升模型性能。

AI快讯

2025-04-02

PDF-Craft是一个用于处理PDF文件的开源项目，专注于将扫描书籍的PDF转换为Markdown或EPUB格式。

AI快讯

2025-04-01

Browseragent 是一款基于浏览器的AI自动化工具，无需编写代码即可创建自定义 AI 工作流。它利用浏览器 GPU 运行 AI 模型，完全本地处理数据，确保隐私且无需支付 API 费用。

AI快讯

2025-04-01

MoshiVis 是一个在Moshi基础上开发的一款视觉语音模型，能够以自然对话风格讨论图像内容。支持多轮对话，可以描述图片的文字内容并回答有关于图片的问题。

AI快讯

2025-04-01

Qwen2.5-Omni 是阿里巴巴发布的新一代端到端多模态旗舰模型，可以理解文本、音频、图像、视频，可以同时进行思考和说话，并通过实时流式响应同时生成文本与自然语音合成输出。

AI快讯

2025-04-01

Mureka O1是昆仑万维发布的全球首款音乐推理大模型。它采用思维链技术，通过多轮推理和结构化生成，能够创作高质量音乐作品。

AI快讯

2025-04-01

laywright-MCP 是一个结合了 Playwright 的跨浏览器能力和模型上下文协议的开源工具，能够直接操控浏览器完成复杂任务，可以用来自动填写网页表单、自动收集网页信息、自动进行网页测试等。

AI快讯

2025-04-01