Karpathy力挺DeepSeek-OCR:视觉输入革命,终结LLM分词器时代?

type
status
date
slug
summary
tags
category
icon
password
网址

引言

在人工智能飞速发展的今天,我们习惯于将文本视为大型语言模型(LLM)的“母语”。然而,一项名为 DeepSeek-OCR 的新技术正从根本上动摇这一基础。它不再将文本视为字符序列,而是将其看作像素图像,这一颠覆性的思路不仅在OCR任务上取得了惊人成就,更引来了特斯拉前AI总监、OpenAI创始成员Andrej Karpathy的极力赞誉。Karpathy甚至宣告,这可能是终结“分词器(Tokenizer)”时代的开端,一场由视觉输入主导的 AI 革命或许正在悄然上演。
本文将深入解读 DeepSeek-OCR 的核心创新,探讨为何 Karpathy 对其“终结分词器”的潜力如此兴奋,并展望视觉作为通用输入方式将如何重塑 人工智能 的未来。

DeepSeek-OCR:不止于OCR的颠覆性创新

DeepSeek-AI 团队推出的 DeepSeek-OCR 模型,并非又一个普通的文字识别工具,它是一项工程学上的杰作,其核心亮点在于将文本彻底“视觉化”,并实现了令人难以置信的效率和精度:
  • 极致的压缩率:它能将一整页密密麻麻的文本压缩成仅100个视觉Token,在OmniDocBench基准测试中实现了高达60倍的压缩。在常规使用中,压缩比也能轻松小于1/10,这意味着更短的上下文窗口和更高的处理效率。
  • 惊人的处理速度:在单张A100-40G显卡上,其处理速度可达每秒约2500个Token,真正做到了风驰电掣。
  • 卓越的性能表现:在权威的OmniDocBench基准测试中,DeepSeek-OCR使用更少的视觉Token,其性能却超越了GOT-OCR2.0和MinerU2.0等顶尖模型,同时支持超过100种语言。
这项技术的本质,是将文本从抽象的字符编码中解放出来,回归其视觉本源。对于 LLM 而言,这意味着输入的数据源可以是更高质量的实体页面(如书籍、文档扫描件),而非经过多重转码、信息有所损失的互联网文本。

Karpathy的呐喊:告别丑陋的分词器 (Tokenizer)

Andrej Karpathy 对 DeepSeek-OCR 的激赏,很大程度上源于他对现有分词器(Tokenizer)的长期不满。他认为,分词器是当前 大模型 技术栈中一个“丑陋、独立且非端到端”的环节,其“罪状”累累:
  1. 历史包袱沉重:分词器引入了Unicode和字节编码的所有复杂性与缺陷,处理起来非常麻烦。
  1. 存在安全风险:分词过程可能引入漏洞,例如连续字节问题,给模型安全带来隐患。
  1. 信息损失严重:一个微笑的表情符号😄,在分词后可能变成一个对模型毫无意义的抽象Token,其背后丰富的像素信息和情感内涵完全丢失。同样,文本的粗体、颜色、排版等视觉信息也被完全忽略。
  1. 语义割裂:两个肉眼看起来完全相同的字符,可能因为编码不同而被映射为两个截然不同的Token,干扰模型的理解。
Karpathy直言,分词器是时候被“赶走”了。DeepSeek-OCR的出现,让他看到了用一种更通用、更高效、更符合直觉的方式处理输入的希望。

视觉即通用语言:AI输入的未来范式?

Karpathy进一步展望,人工智能 的所有输入或许都应该是图像。即使是纯文本,也最好先渲染成图像再输入模型。这种“视觉优先”的范式将带来诸多好处:
  • 信息流的通用性:模型不再需要为文本、图像、表格等不同模态的数据设计不同的处理流程。一切皆为像素,这大大增强了模型的通用性。
  • 更高的信息密度:图像可以携带文本内容、格式、布局、颜色等多维度信息,压缩率远高于文本Token。
  • 更强大的处理机制:对于作为输入的图像,模型可以默认采用双向注意力机制进行编码,这比文本处理中常用的自回归注意力机制要强大得多,能更好地理解上下文。
从这个角度看,OCR只是“视觉到文本”转换的一种应用。而传统的“文本到文本”任务,完全可以被升级为“视觉到文本”任务,其信息保真度和处理能力都将得到质的飞跃。这标志着我们正从“识字时代”迈向“感知时代”。

从像素到光子:未来的畅想与挑战

对于这一趋势,埃隆·马斯克给出了更为科幻的猜想:长期来看,AI 模型超过99%的输入和输出将是光子。这背后的逻辑是,宇宙中最普遍的信息载体就是光子,人类本身也是通过视觉(眼睛接收光子)来感知世界的主要“光学计算系统”。
尽管这一愿景宏大而遥远,但它指明了一个清晰的方向:未来的 AGI (通用人工智能)需要具备像人类一样,以视觉为基础的通用感知能力。DeepSeek-OCR的成功,正是朝着这个方向迈出的坚实一步。它证明了将输入统一为像素不仅是可行的,而且在效率和效果上都极具优势。

结论

DeepSeek-OCR的问世及其引发的讨论,远不止于一项技术的突破。它代表了一场深刻的范式转移:从依赖抽象符号(文本Token)到拥抱物理世界的直接感知(视觉像素)。Karpathy的振臂一呼,说出了许多研究者对分词器弊病的共鸣,也点燃了业界对视觉作为通用输入媒介的想象。
尽管将所有输出也变为像素仍然面临巨大挑战,但输入端的革命已经开启。分词器的时代或许不会在一夜之间终结,但它的根基已经开始动摇。我们正在见证 AI 从一个“会读书”的系统,向一个“会观察”的系统进化。
想要紧跟 AI 发展的最前沿,探索更多像 DeepSeek-OCR 这样的突破性技术吗?欢迎访问 AI 门户网站 https://aigc.bar,获取最新的 AI日报、深度分析和前沿 AI资讯
Loading...

没有找到文章