AI教程 - 智汇AI

GPT-4o mini TTS – OpenAI 推出的文本转语音模型

GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型，支持将文本内容转换为自然流畅语音的同时，开发者能用指令控制语音的语调、情感和风格，例如“平静”“鼓励”“严肃”等，适应不同场景需求。模型基于先进语音合成技术，生成高质量语音输出，支持多种语言及不同性别、年龄和口音的语音，满足多样化用户需求。

AI教程

2025-04-07

福棠·百川 – 百川智能联合北京儿童等推出的儿科大模型

福棠·百川是是国家儿童医学中心、首都医科大学附属北京儿童医院联合百川智能、小儿方健康共同发布的全球首个儿科大模型。覆盖了儿童常见病及疑难病症的立体化知识体系，具备强大的儿科临床推理能力，首创儿科“循证模式”，能像专业儿科医生一样整合最佳医学证据，为患儿制定科学、个性化的诊疗方案。

AI教程

2025-04-07

Agent TARS – 字节跳动开源的多模态 AI Agent 项目

Agent TARS 是字节跳动开源的多模态 AI 代理工具。基于视觉解释网页内容，与浏览器、命令行和文件系统无缝集成，实现复杂任务的规划与执行。Agent TARS 提供桌面客户端，展示多模态元素和对话流程。Agent TARS凭借开源特性和强大的工具集成能力，成为 AI 辅助任务执行和研究的强大工具。

AI教程

2025-04-07

gpt-4o-mini-transcribe – OpenAI 推出的语音转文本模型

gpt-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型，gpt-4o-transcribe的精简版。gpt-4o-mini-transcribe 基于 GPT-4o-mini 架构，用知识蒸馏技术从大模型中转移能力，实现更小的模型体积和更高的运行效率，适合在资源受限的设备（如移动设备或嵌入式系统）上运行，满足实时性要求较高的应用场景。

AI教程

2025-04-07

SpatialLM – 群核科技开源的空间理解多模态模型

SpatialLM 是群核科技开源的空间理解多模态模型，赋予机器人和智能系统类似人类的空间认知能力。通过分析普通手机拍摄的视频，能重建出详细的 3D 场景布局，标注出房间结构、家具摆放、通道宽度等信息。

AI教程

2025-04-07

Multi-Agent Orchestrator – 亚马逊开源的多智能体框架

Multi-Agent Orchestrator 是用于管理和协调多个智能代理（Agent）的框架。通过分类器识别用户输入的意图，将请求分配给最适合的代理进行处理，通过对话存储保持上下文连贯性。支持多种类型的代理，如基于大语言模型（LLM）的代理和基于规则的代理，具有高度的灵活性和可扩展性。

AI教程

2025-04-07

龙猫LongCat – 美团自主研发的生成式AI大模型

LongCat（龙猫）是美团自主研发的生成式AI大模型，通过人工智能技术提升公司内部工作效率和创新能力。模型具备强大的多模态能力，能处理文本、图像等多种数据类型，在生成任务上表现出色，例如快速生成图片、视频脚本、代码等。

AI教程

2025-04-07

食神 – 老板电器推出的首个烹饪大模型

食神是老板电器推出的首个烹饪垂直领域大模型。基于老板电器46年积累的海量烹饪数据，结合DeepSeek技术，能精准理解烹饪场景需求。用户可通过语音、文字等方式与“食神”交互，获取个性化菜谱推荐、健康膳食规划等服务。

AI教程

2025-04-07

Soundwave – 港中文深圳开源的语音理解大模型

Soundwave是香港中文大学（深圳）开源的语音理解大模型，专注于语音与文本的智能对齐和理解。通过创新的对齐适配器和压缩适配器技术，有效解决了语音和文本在表示空间上的差异，实现了高效的语音特征压缩，能更好地处理语音任务。

AI教程

2025-04-07

Motia – AI Agent 开发框架，支持多种编程语言、一键部署智能体

Motia 是专为软件工程师设计的 AI Agent 框架，简化 AI 智能体的开发、测试和部署过程。支持多种编程语言，如 Python、TypeScript 和 Ruby，开发者可以使用熟悉的语言编写智能体逻辑，无需学习专有领域特定语言。

AI教程

2025-04-07