Higgs Audio V2-开源语音大模型,能模拟多人互动场景

Higgs Audio V2-开源语音大模型,能模拟多人互动场景

文章来源:智汇AI    发布时间:2025-08-13

Higgs Audio V2 是李沐及其团队 Boson AI 开发的开源语音大模型。基于超过1000万小时的音频数据训练而成,具备多语言对话生成、自动韵律调整

暂无访问

Higgs Audio V2是什么

Higgs Audio V2 是李沐及其团队 Boson AI 开发的开源语音大模型。基于超过1000万小时的音频数据训练而成,具备多语言对话生成、自动韵律调整、语音克隆和歌声合成等功能。模型能模拟自然流畅的多人对话,自动匹配说话者的情绪和语调,支持低延迟的实时语音交互。支持零样本语音克隆,用户只需提供简短语音样本,即可复制特定人物的声音特征,可以合成歌声。Higgs Audio V2 能同时生成语音和背景音乐,为音频内容创作提供强大支持。

Higgs Audio V2

Higgs Audio V2的主要功能

多语言对话生成:支持多语言对话生成,能模拟多人互动场景,自动匹配说话者的情绪和能量水平,使对话自然流畅。自动韵律调整:在长文本朗读中,能根据内容自动调整语速、停顿和语调,无需人工干预,生成自然流畅的语音。语音克隆与歌声合成:用户只需提供简短的语音样本,模型即可实现零样本语音克隆,复制特定人物的声音特征,能让克隆的声音哼唱旋律。实时语音交互:支持低延迟响应,能理解用户情绪并做出情感化表达,提供接近人类的交互体验。语音与背景音乐同步生成:能同时生成语音和背景音乐,实现“写一首歌并唱出来”的创作流程。

Higgs Audio V2的技术原理

AudioVerse 数据集:开发了一套自动化标注流程,结合多个语音识别模型、声音事件分类模型以及自研的音频理解模型,清洗并标注了 1000 万小时的音频数据。

相关推荐