【TechWeb】1月30日消息,百度在OCR领域再发力。29日,百度正式发布并开源新一代文档解析模型PaddleOCR-VL-1.5。该模型以仅0.9B参数的轻量架构,在全球权威文档解析评测榜单OmniDocBench V1.5中取得全球综合性能第一成绩,整体精度达到94.5%,不仅超过Gemini-3-Pro、Qwen3-VL-235B-A22B、GPT-5.2等模型,也超过了1月27日De.
内容智谱公司近期宣布发布其自主研发的轻量级OCR模型GLM-OCR,并已对外开源。该模型在仅有0.9B的参数量级下,展现出卓越的文档解析能力,尤其在复杂文档场景中表现优异。这一创新不仅为开发者提供了多种部署选择,也为OCR技术的应用打开了新的可能性。
IT之家 2 月 3 日消息,智谱今日宣布正式发布并开源 GLM-OCR。据介绍,该模型仅 0.9B 参数规模,支持 vLLM、SGLang 和 Ollama 部署,在公式识别、表格识别、信息抽取的多项主流基准中均取得 SOTA 表现。
机器之心编辑部嘿!刚刚,DeepSeek 又更新了!这次是更新了十月份推出的 DeepSeek-OCR 模型(参见:太强了!DeepSeek 刚刚开源新模型,用视觉方式压缩一切)。当时 DeepSeek-OCR 的出世,引起了大家对视觉压缩的关注与讨论,而这一次,DeepSeek 对视觉编码下手了。可以说,刚刚发布的 DeepSeek-OCR 2 通过引入 ...
9月28日,在工业和信息化部、北京市人民政府、国际电信联盟ITU-T指导的2020 AIIA人工智能开发者大会上,主办方正式发布国内首份智能文字识别(OCR)能力测评与应用白皮书。白皮书从OCR发展背景、技术沿革、产业发展现状、技术标准化、发展趋势等多个维度 ...
DeepSeek-OCR证明了视觉标记的可行性,但纯视觉基础模型的训练仍是谜题。传统大模型靠“预测下一词”这个清晰目标成功,而图像文字的预测目标模糊不清——预测下一个图像片段?评估太难;转为文本,又回到了老路。
DeepSeek近日推出新一代OCR模型DeepSeek-OCR 2,通过引入创新的DeepEncoder V2架构,突破了传统视觉-语言模型(VLM)的机械处理模式。该模型能够模拟人类视觉逻辑,动态解析图像内容结构,在复杂排版场景中展现出显著优势。这一技术突破标志着OCR领域从"像素识别"向"语义理解"的范式转变。
DeepSeek团队近日发布了全新开源的OCR模型DeepSeek-OCR 2,该模型专注于将PDF文档精准转换为Markdown格式。相较于初代版本,新模型在视觉标记处理方式上实现了突破性创新,通过引入动态语义重排机制,有效解决了传统模型在复杂版面处理中的逻辑断裂问题。