阿里推出QwenLong-L1-32B：一款用于长上下文推理的LLM

阿里推出QwenLong-L1-32B：一款用于长上下文推理的LLM

文章来源：智汇AI 发布时间：2025-06-06

阿里巴巴团队发布QwenLong-L1-32B，首个基于强化学习训练的长上下文大推理模型，和DocQA-RL-1.6K数据集。

暂无访问

2025年5月26日，阿里巴巴团队发布QwenLong-L1-32B，首个基于强化学习训练的长上下文大推理模型，和DocQA-RL-1.6K数据集（含1600个数学、逻辑、多跳推理类文档问答问题）。其框架通过预热监督微调、课程引导强化学习、难度感知回顾采样机制解决长上下文推理强化学习中训练效率低、优化过程不稳定的挑战，在7个长上下文DocQA基准测试中性能优于Openai-o3-mini和Qwen3-235B-A22B，与Claude-3.7-Sonnet-Thinking持平。

模型框架

核心理念：通过强化学习（RL）将短上下文大规模推理模型（LRMs）适应到长上下文场景中。

主要组成部分：

预热监督微调（SFT）阶段：建立稳健的初始策略。

基于课程的分阶段强化学习技术：稳定策略演化。

难度感知回顾采样策略：激励策略探索。

训练数据

使用了名为DocQA-RL-1.6K的专门强化学习训练数据集，包含1600个涵盖数学、逻辑和多跳推理领域的文档问答问题。

性能表现

在七个长上下文文档问答基准测试中，QwenLong-L1-32B的表现超过了OpenAI-o3-mini和Qwen3-235B-A22B等旗舰级LRMs，达到了与Claude-3.7-Sonnet-Thinking相当的水平，在当前最先进的LRMs中表现出领先性能。

实验设计

构建了一个专门的RL训练数据集DocQA-RL-1.6K，包含1600个文档问答问题，涵盖数学、逻辑和多跳推理领域。

数学推理部分使用了DocMath数据集的600个问题，其中75%用于训练，25%用于评估。

逻辑推理部分通过DeepSeek-R1合成了600个多选题，涵盖法律、金融、保险和生产领域的实际文档。

多跳推理部分从MultiHopRAG和Musique中各采样200个例子，强调跨文档推理。

在七个长上下文DocQA基准测试上进行了评估，包括2WikiMultihopQA、HotpotQA、Musique、NarrativeQA、Qasper、Frames和DocMath。

结果与分析

QwenLong-L1-32B在七个长上下文DocQA基准测试中表现优异，超过了OpenAI-o3-mini和Qwen3-235B-A22B等旗舰LRM模型，性能与Claude-3.7-Sonnet-Thinking相当。

在数学推理基准DocMath上，QwenLong-L1-32B的精确匹配和LLM判断准确率达到了85.3%。

在多跳推理基准HotpotQA上，模型的表现达到了87.6%，显著优于现有模型。

项目链接

Github：https://github.com/Tongyi-Zhiwen/QwenLong-L1

Huggingface：https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1-32B

Modelscope：https://www.modelscope.cn/models/iic/QwenLong-L1-32B

相关推荐

最新收录

flowgpt AI

flowgpt A

publicprompts

publicpro

花瓣ai圈

花瓣ai圈

promptvine

promptvin

ChatGPT Prompt Genius

ChatGPT P

Prompt Hunt

Prompt Hu

LIB.KALOS.ART

LIB.KALOS

CLIP Interrogator

CLIP Inte

Promptalot

Promptalo

deepseek提示词

deepseek提

图可丽

图可丽

Reclaim.ai

Reclaim.a

Rezi.ai

Rezi.ai

OS-AIGC

OS-AIGC

kickresume

kickresum

iQuit.ai

iQuit.ai

iA Presenter

iA Presen

Summarizer

Summarize

最新文章

阿里推出QwenLong-L1-32B：一款用于长上下文推理的LLM

阿里推出QwenL

夸克推出“模拟选志愿”功能：用AI为考生提供填报高考志愿建议。

夸克推出“模拟选志

Ropet：AI陪伴机器人

Ropet：AI陪

HunyuanVi

字节跳动旗下扣子空间推出一键文本生成播客功能

字节跳动旗下扣子空

Paper2Poster：一款论文转多模态海报工具

Paper2Pos

DeepSeek R1-0528有哪些功能更新？

DeepSeek

OBA Live Tool：专为直播电商打造的自动化AI助手

OBA Live

Memvid：一款基于视频的AI内存库，解决AI记忆能力

Memvid：一款

OpenDeRisk：7*24H应用系统AI数字运维助手

OpenDeRis

四川妇女BBBWBBBwm村妓：那些被折叠的群体与生存真相

四川妇女BBBWB

Quarkdown：基于Markdown的排版系统，可用来生成书籍、PPT

Quarkdown

向日葵视频污版iOS：用户真实需求与安全风险全透视

向日葵视频污版iO

VRAG-RL：阿里通义团队推出的一款基于视觉感知RAG框架

VRAG-RL：阿

Jaaz：Lovart平替，可接入Flux、SD、可灵等模型的AI设计智能体

Jaaz：Lova

咪咪视频手机最新版app：追剧党的宝藏神器来了！

咪咪视频手机最新版

MagicTryOn：浙江大学和vivo推出的开源视频虚拟试穿项目

MagicTryO

RelightVid：根据用户输入的文本描述对视频进行光照调整

RelightVi