HunyuanOCR-腾讯混元推出的端到端OCR视觉语言模型

HunyuanOCR-腾讯混元推出的端到端OCR视觉语言模型

文章来源:智汇AI    发布时间:2025-11-26

HunyuanOCR 是腾讯混元团队推出的开源的端到端OCR视觉语言模型。依托混元原生多模态架构,仅用1B参数就实现了多项OCR任务的SOTA性能。具备高效轻量

暂无访问

HunyuanOCR是什么

HunyuanOCR 是腾讯混元团队推出的开源的端到端OCR视觉语言模型。依托混元原生多模态架构,仅用1B参数就实现了多项OCR任务的SOTA性能。具备高效轻量的架构,单指令单推理即可输出最优结果,相比传统级联方案更便捷高效。支持100多种语言,无论是单语言还是多语言混合文档都能应对自如。HunyuanOCR 覆盖了经典OCR任务,包括文本检测与识别、复杂文档解析、开放字段信息抽取、视频字幕抽取等,支持端到端拍照翻译和文档问答。

HunyuanOCR

HunyuanOCR的主要功能

文本检测与识别:能检测并识别图片中的文字,输出文本内容及坐标信息,适用于文档、艺术字、街景、手写等多种场景。

相关推荐