文章来源:智汇AI 发布时间:2025-08-12
Step-Audio-AQAA 是 StepFun 团队推出的端到端大型音频语言模型,专门用于音频查询-音频回答(AQAA)任务。能直接处理音频输入生成自然、准
暂无访问Step-Audio-AQAA 是 StepFun 团队推出的端到端大型音频语言模型,专门用于音频查询-音频回答(AQAA)任务。能直接处理音频输入生成自然、准确的语音回答,无需依赖传统的自动语音识别(ASR)和文本到语音(TTS)模块,简化了系统架构并消除了级联错误。Step-Audio-AQAA 的训练过程包括多模态预训练、监督微调(SFT)、直接偏好优化(DPO)以及模型合并。通过这些方法,模型在语音情感控制、角色扮演、逻辑推理等复杂任务中表现出色。在 StepEval-Audio-360 基准测试中,Step-Audio-AQAA 在多个关键维度上超越了现有的 LALM 模型,展现了在端到端语音交互中的强大潜力。