Eleven v3-ElevenLabs推出的AI文本转语音模型

文章来源：智汇AI 发布时间：8578-06-09

Eleven v3是ElevenLabs推出的先进文本转语音模型。通过内联音频标签实现情感和语调的精确控制，支持多说话人对话，对话更自然。模型支持超70种语言，

暂无访问

Eleven v3是什么

Eleven v3是ElevenLabs推出的先进文本转语音模型。通过内联音频标签实现情感和语调的精确控制，支持多说话人对话，对话更自然。模型支持超70种语言，文本理解能力强，能准确把握重音、节奏。适用于媒体影视配音、有声读物制作、游戏开发和教育等领域，可提供生动、真实的声音体验。

Eleven v3的主要功能

情感和语调控制：用户可以通过内联音频标签精确控制语音的情感和语调。例如，使用“laughs”“whispers”“sarcastic”等标签来表达不同的情感和语气，可以添加音效标签如“gunshot”“applause”等，可以使用特殊标签如“strongXaccent”“sings”等进行创意应用。多说话人对话：Eleven v3 支持多达32个不同说话者的对话，能模拟真实交谈中的语气变化、情感起伏甚至中断等自然特性，使多人对话场景更加真实自然。语言支持：模型支持超过70种语言，相比之前的版本，语言覆盖范围更广，能满足更多语言环境下的使用需求。文本理解能力：Eleven v3 的文本理解能力大幅增强，能更深入地理解文本语义，生成更自然、更具表现力的语音。

Eleven v3的技术原理

全新的模型架构：Eleven v3 采用了全新的模型架构，能更深入地理解文本语义和上下文。相比之前的版本，能更好地捕捉文本中的情绪、节奏和意图，生成更具感染力的语音。音频标签功能：Eleven v3 引入了音频标签功能，用户可以通过在文本中插入特定的标签（如 whispers、angry、laughs 等）来精确控制语音的情感表达和非语言反应。这些标签分为情感表达标签、音效标签和特殊标签，用于添加环境声音和创意效果。自动标签功能：Eleven v3 引入了自动标签功能，用户只需点击“Enhance”按钮，模型会根据文本内容自动添加情感标签，进一步简化创作流程。稳定性滑块：用户可以通过“stability slider（稳定性滑块）”控制生成的声音与原始参考音频的接近程度。这三种选项包括 Creative（情绪化、表现力更强，但容易产生幻觉）、Natural（平衡且中性，最接近原始录音）和 Robust（高度稳定，但对方向性提示的反应较慢）。