2025-11-05 14:30:00
DOI:10.48550/arXiv.2510.18234
作者:Haoran Wei, Yaofeng Sun, Yukun Li
关键字: #DeepSeek-OCR
文章类型:preprint
品读时间:2025-11-05 14:29
本文借助 DeepSeek-OCR 的研究,对视觉 token 压缩文本的可行性进行了初步研究;DeepSeek-OCR 模型以 DeepEncoder 作为核心组件,实现了高分辨率输入下的低激活开销,确保视觉 token 的数量保持着合理范围;MoE 解码器将DeepEncoder 编码压缩后的信息进行原始文本表示的还原,验证了视觉 token 相对传统文本 token 的信息优势
最终实验表明,相对于文本 token,视觉 token 在保持 10 倍压缩比的情况下,依然能够实现 97%的解码(OCR)精度;而 DeepSeek-OCR 模型也展现出来较高的实用价值,在多样化文档解析的测试中取得了明显优势,在生产环境中单 GPU(A100-40G)能够每天实现 20w+页面的高质量解析
- 论文针对视觉 token 的研究值得深入的思考与研究
- 模型的 OCR 性能出众,使用方式灵活,实用价值高
- 模型架构设计创新较少,主要沿用已验证成熟方案
前置知识:SAM(2023)

前置知识:CLIP(2021)

已有的经典视觉编码方案:

端到端 OCR 方案

DeepEncoder 是 DeepSeek-OCR 的核心,包含主要三个组件:
DeepEncoder 通过位置编码的动态插值来实现多分辨率模型的同步训练,并确保最终DeepSeek-OCR 模型的多分辨率支持
MoE 解码器
训练数据说明:
两阶段训练+多节点+数据管道并行:
评估视觉 token 相对于文本 token 的压缩率和还原精度

本篇论文的核心思想点:a picture is worth a thousand words(一图胜千言)
不同尺寸 DeepSeek-OCR 的 OCR 性能均实现 SOTA

OmniDocBench:评估现实场景中多样化文档解析性能的基准测试
其他总结:
上下文视觉压缩与人类记忆的衰退过程存在相似之处(1)近期记忆:就像近处的物体,是清晰的高分辨率图像,需要较多的视觉 token(2)远期记忆:就像远处的问题,是逐渐模糊缩小的图像,需要更少的视觉 token(3)从近期记忆到远期记忆,视觉 token 能实现信息的自然遗忘和压缩
网络评论摘录:
- 论文在线地址
- 代码开源地址
- 本地文件地址:Preprint PDF
- 本地Zotero地址:Preprint PDF
2025-10-31 13:18:00
前置知识:检索增强 RAG,
相比于朴素 RAG,高级 RAG 在预检索过程(Pre-Retrieval Process) 和 后检索过程(Post-Retrieval Process) 两个阶段引入了一些改进措施,提高检索质量
检索粒度 Retrieval Granularity
分块策略 Chunking Strategy
元数据附加 Metadata Attachments
索引结构优化 Structural Index
查询扩展 Query Expansion
查询转换 Query Transformation
查询路由 Query Routing
重排序 Reranking
上下文压缩 Context Selection/Compression
迭代检索 Iterative Retrieval
递归检索 Recursive Retrieval
自适应检索 Adaptive Retrieval
本文内容主要参考自一篇 RAG 综述论文
2025-10-27 21:16:00
整体 NAS 规划:
PVE 是在 Linux/Debian 基础上深度定制化的底层虚拟机系统
一、准备工作:
本人使用的PVE 系统版本为
proxmox-ve_9.0-1
二、安装 PVE
PVE 的默认 web 访问方式:
https://配置 IP:8006
三、配置 PVE
# 合并硬盘分区,删除local-lvm,扩容local
lvremove pve/data
lvextend -l +100%FREE -r pve/root
# 修改后在web端删除local-lvm,编辑增加local的用途
# 测试网络是否通畅
ping baidu.com
更新软件源:
/etc/apt/sources.list 中更新软件源为清华源
/etc/apt/sources.list.d/pve-no-subscription.list 中更新 PVE 源为清华源
/etc/apt/sources.list.d/ 中的其他文件进行移动与备份mv pve-enterprise.sources pve-enterprise.sources_back
mv ceph.sources ceph.sources_back
关闭登录提示《无有效订阅》弹窗:
# 参考:https://blog.csdn.net/JingLisen/article/details/143847366
vim /usr/share/javascript/proxmox-widget-toolkit/proxmoxlib.js
# `Ext.Msg.show`修改为`Ext.Msg.noshow`即可
systemctl restart pveproxy.service # 重启服务
更新升级软件:apt update && apt upgrade -y
最后重启系统:reboot
其他 PVE 系统设置:
飞牛 NAS 系统是目前流行的开源 NAS 系统,应用丰富且实用
不确定自己是否需要 NAS 或者希望先尝试一下 NAS 的朋友,可以先在 Windows 系统中利用 Hyper-v 虚拟化安装一个 fnOS,进行体验;具体教程可参考飞牛 wiki-Hyper-V 安装
虚拟机配置详情:

增加机械磁盘(直通整个 SATA 控制器)
ls -l /dev/disk/by-id/
qm set 100 -sata1 /dev/disk/by-id/ID
目的:让 FnOS 虚拟机直接管理物理硬盘,避免通过 PVE 虚拟层,性能更好,支持硬盘休眠等功能
增加 SSD 缓存
目的:SSD 的随机读写速度远高于 HDD,作为缓存时可加速频繁访问数据的响应速度
其他 fnOS 配置
DDNS 碰到了一个问题,需要破解小米路由器来进行防火墙规则的调整;DDNS 会受到不同地区的运营商限制;以北京移动为例,实测基于 IPv6 的 DDNS 只有约 500k/s 的上行速度,和飞牛自带的免费内网穿透差不多
推荐应用
其他第三方推荐(个人暂未采纳的应用)
目前的影视方案:
目前在探索的方案:网盘 VIP+smartstrm 实现网盘资源的订阅播放
该方案的好处:支持追剧+自动更新,不占用本地存储,不占用家庭网络上行带宽 该方案的缺点:目前飞牛影视暂不支持 strm 播放,并且飞牛影视本身支持网盘资源的直链播放(与 strm 播放功能类似,只是目前属于新功能,实际体验还不太稳定,并且网盘资源较多时频繁扫盘可能存在风险)
目前的内网穿透方案:
3+2+1 备份原则:3份数据副本(1份原始文件 + 2份备份),保存在2种不同的存储介质上,其中至少有1份副本存储在异地
第三方 NAS 教程的整理汇总:
其他参考资料:
知乎 - All in One 保姆教程⑧(安装飞牛 fnOS)
Proxmox VE 安装 FnOS 完全指南
2025-10-26 22:22:00
前置知识:检索增强 RAG
问题现象:知识库中缺少上下文,导致 RAG 给出一个看似合理但错误的答案
解决方案:
问题现象:不合理的检索排序导致关键文档被遗漏,没有被正确返回给 LLM
解决方案:
问题现象:关键信息被正确检索到,但在大量文档的整合过程中被遗漏
解决方案:和上一个问题的解决方案类似,都是重排序、调整或优化检索策略
问题现象:关键信息被正确提供,LLM 未正确提取到
该问题一般发生在 LLM 上下文中存在过多噪声或冲突信息时
解决方案:
问题现象:LLM 的输出不遵从指令,不满足要求的特定格式(比如表格或JSON)
解决方案:
问题现象:LLM 的输出过于模糊或笼统,无法满足用户的需求
解决方案:考虑高级 RAG 技术,比如调整搜索结果的粒度
问题现象:输出结果不完整,但相关的信息是存在于上下文中的
解决方案:考虑高级 RAG 技术,比如查询转换/查询重写
问题现象:RAG 系统难以管理和处理海量数据,导致高延迟、低性能等问题
解决方案:添加数据 pipeline 的并行处理功能,避免查询检索的长期堵塞
问题现象:当 LLM 根据文本转 SQL 方面不太灵活,对结构化数据的检索效果差
解决方案:
问题描述:简单的检索方法无法获取 PDF 等复杂文档中的数据
解决方案:利用成熟的第三方格式转换工具;或借助高精度 OCR 技术
问题描述:在使用 LLM 时,出现报错或速率限制等问题
解决方案:利用路由工具,自适应的选择最佳模型;做好备用的模型方案
问题描述:LLM 可能面对提示注入、不安全输出和敏感信息泄露等问题
解决方案:利用第三方 LLM 安全工具,进行内容审核或风险拦截
2025-10-24 00:07:00
上下文学习 ICL 是大模型 RAG 的前提基础
RAG(retrieval-augmented-generation):基于信息检索的提示词增强技术
RAG 的一般流程:

推荐参考 MTEB 排行榜,结合个人需求选择合理的 Embedding 模型
RAG 的优点:
RAG 的缺点:
由微软团队在 2024 年提出的 RAG 技术
框架设计与算法细节:

Deep Search 深度搜索
Deep Search 的典型能力
Deep Research 深度研究
关键技术: 推理时计算(test-time compute)

更多 RAG 技术的进阶技巧,可参考1_study/DeepLearning/上下文工程/高级 RAG 技术
参考: