DeepSeek-AI团队近日发布了题为《DeepSeek-OCR:ContextsOpticalCompression》的研究论文,提出一种通过视觉模态实现长文本上下文压缩的创新方法。根据HuggingFace页面信息,该模型参数规模为3B。开源地址:https://huggingface.co/deepseek-ai/DeepSeek-OCRhttps://github.com/deepseek-ai/DeepSeek-OCR据官方介绍,此次发布的DeepSeek-OCR包含两个核心...
deepseek-ai 团队近日发布了题为《deepseek-ocr:contexts optical compression》的研究论文,提出一种通过视觉模态实现长文本上下文压缩的创新方法。根据 hugging face 页面信息,该模型参数规模为 3b。
开源地址:https://www./link/32ce0ec3ee6f3951004c8ebb7511ffc1https://www./link/b3f1ba764509b453d6cc48e0969e5cb7
据官方介绍,此次发布的 DeepSeek-OCR 包含两个核心组件:专用编码器 DeepEncoder 和解码器 DeepSeek3B-MoE-A570M。其中,DeepEncoder 针对高分辨率输入进行了优化设计,在确保低计算激活的同时实现高效压缩,有效将视觉 token 数量控制在合理范围内。

实验结果表明,当文本 token 数量不超过视觉 token 的 10 倍(即压缩比低于 10×)时,模型 OCR 准确率可达 97%;即使压缩比提升至 20×,准确率仍能维持在约 60% 的水平,展现出其在历史文档处理、长上下文压缩以及大语言模型记忆机制探索方面的广阔应用前景。同时,DeepSeek-OCR 具备出色的实用价值。
在 OmniDocBench 基准测试中,DeepSeek-OCR 仅用 100 个视觉 token 就超越了 GOT-OCR2.0(每页使用 256 个 token),而当视觉 token 不足 800 时,性能已优于 MinerU2.0(平均每页消耗超过 6000 个 token)。
在实际部署场景中,DeepSeek-OCR 可在单张 A100-40G 显卡上每日生成逾 20 万页高质量训练数据,适用于大规模视觉语言模型或大语言模型的训练需求。
源码地址:点击下载
相关推荐:
SEO埋词技巧,如何提升网站排名?,贵州营销推广方法
ChatGLM不能搜索网页内容,你真的了解它的局限性吗?,ai改变图标
SEO优化是怎么回事?网站排名背后的神秘力量
可以长期去做的五种网络赚钱方法,赶快行动起来!
ChatGPT怎么找梯子:突破网络限制,轻松访问AI助手的终极指南,ai美发设计
十大免费网站推广入口,助你轻松提升网站流量!,微软虚拟ai
ChatGPT怎么突然不能打开了?你需要了解的原因与解决办法,适合标书写作的ai工具
ChatGPT可以实现新闻报道的即时自动化生成,ai 怎么 蒙版
教你如何通过发红包就可以赚钱的网赚项目操作思路!
AI智能工具的无限可能:未来已来,你准备好了吗?
生成书源:颠覆阅读行业的全新利器,林玖妍超ai川
SEO与SEM:提升网站流量与转化率的关键策略
AI写作免费生成软件:让创作变得如此简单
AI网页设计生成-智能化创造无限可能,zxy959ai
SEO主要是做什么?让你了解SEO背后的秘密与实用技巧
SEO优化英文:提高网站流量的秘诀
国内免费版GPT:全新智能体验,人人都能用的AI助手,顺产AI
ChatGPT无法使用?了解原因及解决方法,轻松恢复智能对话体验!,移动ai写作助手官网
SEO优化外部链接时错误的做法是你不得不避免的几个雷区
开发App的5个基本步骤
SEOLogo设计:打造品牌形象的强大武器
OpenAI官网入口:开启AI科技的新纪元,ai天然美女
SEO位置优化,提升网站排名的关键策略
“GPT4.0下载:开启智能未来,无限可能”,ps保存为ai格式路径
行业关键词搜索量排名:洞察市场趋势,优化营销策略,app ai6
新手怎么在家做网络淘金赚钱?
阿里巴巴关键词价格调整:如何在变动中提升店铺曝光与转化?,广州ai编程培训
如何衡量cpm、cpc、广告的实际投放效果?
SEO怎么加快文章的收录速度
ChatGPTO1免费:突破智能聊天的极限,体验AI无限可能,ai同位