跳到主要内容

dots-ocr

统一的视觉语言模型

dots.ocr采用了与传统OCR系统截然不同的技术架构。传统方案通常结合YOLO风格的目标检测器与独立的语言模型,需要在多个模型间协调处理不同任务。而dots.ocr通过单一的视觉语言模型(VLM)实现了布局检测、文本解析、阅读顺序识别以及数学公式识别的统一处理。