HunyuanOCR-腾讯混元推出的端到端OCR视觉语言模型

文章来源：智汇AI 发布时间：2025-11-26

HunyuanOCR 是腾讯混元团队推出的开源的端到端OCR视觉语言模型。依托混元原生多模态架构，仅用1B参数就实现了多项OCR任务的SOTA性能。具备高效轻量

暂无访问

HunyuanOCR是什么

HunyuanOCR 是腾讯混元团队推出的开源的端到端OCR视觉语言模型。依托混元原生多模态架构，仅用1B参数就实现了多项OCR任务的SOTA性能。具备高效轻量的架构，单指令单推理即可输出最优结果，相比传统级联方案更便捷高效。支持100多种语言，无论是单语言还是多语言混合文档都能应对自如。HunyuanOCR 覆盖了经典OCR任务，包括文本检测与识别、复杂文档解析、开放字段信息抽取、视频字幕抽取等，支持端到端拍照翻译和文档问答。