欢迎光临,我们是一家专注中小型企业营销推广服务的公司!

咨询热线:400 9868 577
淮南兰乔电子商务有限公司
新闻中心News
淮南兰乔电子商务有限公司

DeepSeek 团队发布最新开源模型 DeepSeek-OCR

作者:聖光之護 | 点击: | 来源:聖光之護
2010
2025
DeepSeek-AI团队近日发布了题为《DeepSeek-OCR:ContextsOpticalCompression》的研究论文,提出一种通过视觉模态实现长文本上下文压缩的创新方法。根据HuggingFace页面信息,该模型参数规模为3B。开源地址:https://huggingface.co/deepseek-ai/DeepSeek-OCRhttps://github.com/deepseek-ai/DeepSeek-OCR据官方介绍,此次发布的DeepSeek-OCR包含两个核心...

deepseek-ai 团队近日发布了题为《deepseek-ocr:contexts optical compression》的研究论文,提出一种通过视觉模态实现长文本上下文压缩的创新方法。根据 hugging face 页面信息,该模型参数规模为 3b。

开源地址:https://www./link/32ce0ec3ee6f3951004c8ebb7511ffc1https://www./link/b3f1ba764509b453d6cc48e0969e5cb7

据官方介绍,此次发布的 DeepSeek-OCR 包含两个核心组件:专用编码器 DeepEncoder 和解码器 DeepSeek3B-MoE-A570M。其中,DeepEncoder 针对高分辨率输入进行了优化设计,在确保低计算激活的同时实现高效压缩,有效将视觉 token 数量控制在合理范围内。

实验结果表明,当文本 token 数量不超过视觉 token 的 10 倍(即压缩比低于 10×)时,模型 OCR 准确率可达 97%;即使压缩比提升至 20×,准确率仍能维持在约 60% 的水平,展现出其在历史文档处理、长上下文压缩以及大语言模型记忆机制探索方面的广阔应用前景。同时,DeepSeek-OCR 具备出色的实用价值。

在 OmniDocBench 基准测试中,DeepSeek-OCR 仅用 100 个视觉 token 就超越了 GOT-OCR2.0(每页使用 256 个 token),而当视觉 token 不足 800 时,性能已优于 MinerU2.0(平均每页消耗超过 6000 个 token)。

在实际部署场景中,DeepSeek-OCR 可在单张 A100-40G 显卡上每日生成逾 20 万页高质量训练数据,适用于大规模视觉语言模型或大语言模型的训练需求。

源码地址:点击下载

相关推荐
我要咨询做网站
成功案例
建站流程
  • 网站需
    求分析
  • 网站策
    划方案
  • 页面风
    格设计
  • 程序设
    计研发
  • 资料录
    入优化
  • 确认交
    付使用
  • 后续跟
    踪服务
  • 400 9868 577
    info#ilanqiao.cn
Hi,Are you ready?
准备好开始了吗?
那就与我们取得联系吧

咨询送礼现在提交,将获得兰乔电子商务策划专家免费为您制作
价值5880元《全网营销方案+优化视频教程》一份!
下单送礼感恩七周年,新老用户下单即送创业型空间+域名等大礼
24小时免费咨询热线400 9868 577
合作意向表
您需要的服务
您最关注的地方
预算

直接咨询