OCR - 搜索 News

百度开源全新OCR模型 PaddleOCR-VL-1.5，性能超越DeepSeek-OCR2

【TechWeb】1月30日消息，百度在OCR领域再发力。29日，百度正式发布并开源新一代文档解析模型PaddleOCR-VL-1.5。该模型以仅0.9B参数的轻量架构，在全球权威文档解析评测榜单OmniDocBench V1.5中取得全球综合性能第一成绩，整体精度达到94.5%，不仅超过Gemini-3-Pro、Qwen3-VL-235B-A22B、GPT-5.2等模型，也超过了1月27日De.

12 天

智谱GLM-OCR模型：轻量级OCR的颠覆性创新

内容智谱公司近期宣布发布其自主研发的轻量级OCR模型GLM-OCR，并已对外开源。该模型在仅有0.9B的参数量级下，展现出卓越的文档解析能力，尤其在复杂文档场景中表现优异。这一创新不仅为开发者提供了多种部署选择，也为OCR技术的应用打开了新的可能性。

12 天

智谱开源 GLM-OCR 模型：仅 0.9B 参数，多项基准取得 SOTA 表现

IT之家 2 月 3 日消息，智谱今日宣布正式发布并开源 GLM-OCR。据介绍，该模型仅 0.9B 参数规模，支持 vLLM、SGLang 和 Ollama 部署，在公式识别、表格识别、信息抽取的多项主流基准中均取得 SOTA 表现。

腾讯网

DeepSeek又探索新架构了，开源OCR 2

机器之心编辑部嘿！刚刚，DeepSeek 又更新了！这次是更新了十月份推出的 DeepSeek-OCR 模型（参见：太强了！DeepSeek 刚刚开源新模型，用视觉方式压缩一切）。当时 DeepSeek-OCR 的出世，引起了大家对视觉压缩的关注与讨论，而这一次，DeepSeek 对视觉编码下手了。可以说，刚刚发布的 DeepSeek-OCR 2 通过引入 ...

DOIT

国内首份OCR白皮书重磅出炉，公布OCR技术发展三大趋势

9月28日，在工业和信息化部、北京市人民政府、国际电信联盟ITU-T指导的2020 AIIA人工智能开发者大会上，主办方正式发布国内首份智能文字识别（OCR）能力测评与应用白皮书。白皮书从OCR发展背景、技术沿革、产业发展现状、技术标准化、发展趋势等多个维度 ...

3 个月

DeepSeek-OCR：大模型技术，正站在一个新的十字路口

DeepSeek-OCR证明了视觉标记的可行性，但纯视觉基础模型的训练仍是谜题。传统大模型靠“预测下一词”这个清晰目标成功，而图像文字的预测目标模糊不清——预测下一个图像片段？评估太难；转为文本，又回到了老路。

17 天on MSN

DeepSeek-OCR 2革新登场：模拟人类视觉逻辑，解锁复杂图像理解新境界

DeepSeek近日推出新一代OCR模型DeepSeek-OCR 2，通过引入创新的DeepEncoder V2架构，突破了传统视觉-语言模型（VLM）的机械处理模式。该模型能够模拟人类视觉逻辑，动态解析图像内容结构，在复杂排版场景中展现出显著优势。这一技术突破标志着OCR领域从"像素识别"向"语义理解"的范式转变。

18 天on MSN

DeepSeek-OCR 2革新登场：弃CLIP用Qwen轻量模型，性能直追Gemini-3 Pro

DeepSeek团队近日发布了全新开源的OCR模型DeepSeek-OCR 2，该模型专注于将PDF文档精准转换为Markdown格式。相较于初代版本，新模型在视觉标记处理方式上实现了突破性创新，通过引入动态语义重排机制，有效解决了传统模型在复杂版面处理中的逻辑断裂问题。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果