AI快讯

CUA Browser: 基于Browserbase和OpenAI CUA Model的浏览器自动化开源项目

CUA Browser是什么?CUA Browser实际上是一个基于Browserbase和OpenAI CUA Model的浏览器自动化开源项目,用户可以通过自然语言命令与浏览器交互,并观察浏览器的响应。

谷歌推出Gemma 3:性能超越DeepSeek V3、o3mini为全球第二强开源模型

Gemma 3是Google 发布的最新开源模型,超越了 DeepSeek V3 和 o3mini,成为全球第二强开源模型。Gemma 3 具备强大的多模态能力,能够理解文本、图片和短视频,同时还支持超过 140 种语言的预训练,直接支持超过 35 种语言。

Gemma 3相比Gemma 2有哪些改进?

就在刚刚,谷歌Gemma 3来了,1B、4B、12B和27B四种参数,一块GPU TPU就能跑!而Gemma 3仅以27B就击败了DeepSeek 671B模型

Gemma 3的1B、4B、12B 和 27B这四种不同尺寸模型特点

Gemma 3 开源了四种参数版本:1B、4B、12B 和 27B,均支持在单块 GPU 或 TPU 上运行,以下是这4个不同尺寸模型的特点:

VACE:阿里通义Wan团队推出的视频生成与编辑统一模型

VACE是由阿里巴巴通义实验室推出的一站式视频生成与编辑统一模型,可以通过统一的模型架构实现多种视频创作和编辑任务。

Open MCP Client:只需一个URL,即可在应用中与MCP服务器交互

Open MCP Client 是首个基于 Web 的 MCP 客户端项目,通过一个 URL 即可实现AI助手与 MCP 服务器的交互。

BlenderMCP: 实现Claude AI与Blender交互,通过提示词进行3D建模、场景创建和操作。

BlenderMCP 是一个基于 Blender 的插件,可以通过MCP协议将 Blender 与 Claude AI 连接,实现通过提示辅助的3D建模、场景创建和材质。

Playwright MCP Server:为大型语言模型提供浏览器自动化能力

Playwright MCP Server是一个使用Playwright实现的模型上下文协议服务器,能够为大型语言模型(LLMs)提供浏览器自动化能力,例如与网页交互、截屏以及在真实浏览器环境中执行JavaScript。

PC-Agent:一款用于PC上自动执行复杂任务的多智能体框架

https: github.com X-PLUG MobileAgent tree main PC-Agent

Gemini 2.0 Flash Experimental的功能特征及使用方法

Gemini 2.0 Flash Experimental 是 Google 推出的一款实验性多模态AI模型,可以通过结合文本、图像和自然语言理解,提供更强大的生成和交互能力。