
AI快讯
Gemini 2.5 Pro与Gemini 2.5相比较,有哪些提升?
Gemini 2.5 Pro是谷歌最新发布的AI模型,相比Gemini 2.5,Gemini 2.5 Pro在推理、编码、多模态支持和上下文处理等方面都优于Gemini 2.5,是谷歌目前最智能的AI模型。
OpenAI GPT-4o模型推出重大更新:为ChatGPT增加了图像生成和编辑功能
OpenAI于2025年3月25日正式宣布在GPT-4o模型中集成图像编辑和视觉生成功能,用户可以通过对话式来生成图像、修改现有视觉内容,甚至设计复杂的材料,如
OpenAI推出的GPT-4o图像生成有哪些功能特点?
2025年3月25日,OpenAI通过一场直播活动正式发布了GPT-4o的原生图像生成功能,并将其集成到ChatGPT和Sora平台,用户可以通过文字提示生成高质量图像,甚至对现有图像进行风格化编辑。
ScoreFlow:一种自动化多智能体工作流生成和优化方法
ScoreFlow是一种自动化多智能体工作流生成与优化方法,它通过基于梯度的连续空间优化技术,结合Score-DPO,不断改进协作流程,从而提升模型性能。
PDF-Craft:一个扫描书籍PDF文件转Markdown/EPUB工具
PDF-Craft是一个用于处理PDF文件的开源项目,专注于将扫描书籍的PDF转换为Markdown或EPUB格式。
BrowserAgent:一款基于浏览器的AI自动化工具,无需编写代码即可创建AI工作流。
Browseragent 是一款基于浏览器的AI自动化工具,无需编写代码即可创建自定义 AI 工作流。它利用浏览器 GPU 运行 AI 模型,完全本地处理数据,确保隐私且无需支付 API 费用。
MoshiVis:一款能听还能看,并用流畅的语音跟你讨论图像内容的视觉语音模型
MoshiVis 是一个在Moshi基础上开发的一款视觉语音模型,能够以自然对话风格讨论图像内容。支持多轮对话,可以描述图片的文字内容并回答有关于图片的问题。
Qwen2.5-Omni:阿里巴巴发布的端到端全能多模态旗舰模型
Qwen2.5-Omni 是阿里巴巴发布的新一代端到端多模态旗舰模型,可以理解文本、音频、图像、视频,可以同时进行思考和说话,并通过实时流式响应同时生成文本与自然语音合成输出。
Mureka O1:昆仑万维发布的全球首款音乐推理大模型
Mureka O1是昆仑万维发布的全球首款音乐推理大模型。它采用思维链技术,通过多轮推理和结构化生成,能够创作高质量音乐作品。
playwright-mcp:能够使大语言模型直接操控浏览器完成复杂任务
laywright-MCP 是一个结合了 Playwright 的跨浏览器能力和模型上下文协议的开源工具,能够直接操控浏览器完成复杂任务,可以用来自动填写网页表单、自动收集网页信息、自动进行网页测试等。