AI教程

GPT-4o mini TTS – OpenAI 推出的文本转语音模型

GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型,支持将文本内容转换为自然流畅语音的同时,开发者能用指令控制语音的语调、情感和风格,例如“平静”“鼓励”“严肃”等,适应不同场景需求。模型基于先进语音合成技术,生成高质量语音输出,支持多种语言及不同性别、年龄和口音的语音,满足多样化用户需求。

福棠·百川 – 百川智能联合北京儿童等推出的儿科大模型

福棠·百川是是国家儿童医学中心、首都医科大学附属北京儿童医院联合百川智能、小儿方健康共同发布的全球首个儿科大模型。覆盖了儿童常见病及疑难病症的立体化知识体系,具备强大的儿科临床推理能力,首创儿科“循证模式”,能像专业儿科医生一样整合最佳医学证据,为患儿制定科学、个性化的诊疗方案。

Agent TARS – 字节跳动开源的多模态 AI Agent 项目

Agent TARS 是字节跳动开源的多模态 AI 代理工具。基于视觉解释网页内容,与浏览器、命令行和文件系统无缝集成,实现复杂任务的规划与执行。Agent TARS 提供桌面客户端,展示多模态元素和对话流程。Agent TARS凭借开源特性和强大的工具集成能力,成为 AI 辅助任务执行和研究的强大工具。

gpt-4o-mini-transcribe – OpenAI 推出的语音转文本模型

gpt-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型,gpt-4o-transcribe的精简版。gpt-4o-mini-transcribe 基于 GPT-4o-mini 架构,用知识蒸馏技术从大模型中转移能力,实现更小的模型体积和更高的运行效率,适合在资源受限的设备(如移动设备或嵌入式系统)上运行,满足实时性要求较高的应用场景。

SpatialLM – 群核科技开源的空间理解多模态模型

SpatialLM 是群核科技开源的空间理解多模态模型,赋予机器人和智能系统类似人类的空间认知能力。通过分析普通手机拍摄的视频,能重建出详细的 3D 场景布局,标注出房间结构、家具摆放、通道宽度等信息。

Multi-Agent Orchestrator – 亚马逊开源的多智能体框架

Multi-Agent Orchestrator 是用于管理和协调多个智能代理(Agent)的框架。通过分类器识别用户输入的意图,将请求分配给最适合的代理进行处理,通过对话存储保持上下文连贯性。支持多种类型的代理,如基于大语言模型(LLM)的代理和基于规则的代理,具有高度的灵活性和可扩展性。

龙猫LongCat – 美团自主研发的生成式AI大模型

LongCat(龙猫)是美团自主研发的生成式AI大模型,通过人工智能技术提升公司内部工作效率和创新能力。模型具备强大的多模态能力,能处理文本、图像等多种数据类型,在生成任务上表现出色,例如快速生成图片、视频脚本、代码等。

食神 – 老板电器推出的首个烹饪大模型

食神是老板电器推出的首个烹饪垂直领域大模型。基于老板电器46年积累的海量烹饪数据,结合DeepSeek技术,能精准理解烹饪场景需求。用户可通过语音、文字等方式与“食神”交互,获取个性化菜谱推荐、健康膳食规划等服务。

Soundwave – 港中文深圳开源的语音理解大模型

Soundwave是香港中文大学(深圳)开源的语音理解大模型,专注于语音与文本的智能对齐和理解。通过创新的对齐适配器和压缩适配器技术,有效解决了语音和文本在表示空间上的差异,实现了高效的语音特征压缩,能更好地处理语音任务。

Motia – AI Agent 开发框架,支持多种编程语言、一键部署智能体

Motia 是专为软件工程师设计的 AI Agent 框架,简化 AI 智能体的开发、测试和部署过程。支持多种编程语言,如 Python、TypeScript 和 Ruby,开发者可以使用熟悉的语言编写智能体逻辑,无需学习专有领域特定语言。