AI快讯

Open-LLM-VTuber:一个开源的具有手势和语音交互功能的AI虚拟形象

Open-LLM-VTuber是一个开源的语音交互式 AI 虚拟形象,支持实时语音对话、视觉感知以及 Live2D 动画形象,并且可以完全离线运行。

AkashChat:基于去中心化云计算平台 Akash Network的AI聊天工具

AkashChat 是由 Akash Network 开发的基于去中心化云计算的 AI 聊天平台。它利用 NVIDIA GPU 的高性能算力,运行多个开源大语言模型,为用户提供快速、免费且隐私友好的对话体验。

OpenManus-RL:一个提升LLM智能体的推理与决策能力开源项目

OpenManus-RL是一个由UIUC-Ulab与MetaGPT社区的OpenManus团队联合开发的开源项目,可以通过强化学习技术提升大型语言模型LLM智能体的推理与决策能力。

DeepSeek R2或在3月17日发布,更好的编码、多语言推理、更低成本

最新消息来啦!DeepSeek R2或在3月17日发布。与此同时,Claude Sonnet 3.7或许会面临一些状况。因为DeepSeek R2声称在多个方面有着出色表现,比如更好的编码,多语言推理,更高精度,更低成本,具体来讲,它有以下这些功能特性:

DeepSeek R2、Kimi K1.5、DeepSeek V3、DeepSeek R1与ChatGPT的比较分析

DeepSeek R2或将在3月17日发布,我们将它与同类产品Kimi K1.5、DeepSeek V3、R1以及OpenAI的知名ChatGPT进行比较一下。

MM_StoryAgent:上海交大和阿里开源的一款AI多模态故事生成系统

MM-StoryAgent是上海交大和阿里开源的一款AI多模态故事生成系统,采用多智能体范式,能生成沉浸式的有声故事书视频。

VideoPainter:腾讯等开源的支持任意长度视频修复编辑工具,支持通过文字指令实现视频编辑

VideoPainter是由香港中文大学、腾讯ARC Lab、东京大学和澳门大学等机构联合推出的开源视频修复和编辑框架,能处理任意长度的视频内容。

Magma:微软推出的多模态AI代理基础模型,可实现多场景代理

Magma 是微软推出的一款多模态 AI 代理基础模型,能够处理虚拟和现实环境中的复杂交互,实现图像字幕和问答、视频字幕和问答、UI导航、机器人操作等多种任务。

OpenAI发布 Responses API 和 Agents SDK,增强智能体的开发流程

OpenAI于2025年3月11日发布了Agent SDK和Responses API,用于构建多智能体工作流。它支持任务交接、安全检查、工具调用和内置跟踪功能,非常适合需要复杂智能体协作的企业自动化场景。

如何使用Claude将文档生成可视化网页或PPT提示词

新版本Claude 3.7 结合适合的Claude提示词,写出的网页或者应用界面在美观度上有了非常大的提升,而且还可以用于将文档内容转换为PPT或网页。