卡帕西关于DeepSeek-OCR论文:像素是否比文本是更好的LLM输入?
Karpathy on DeepSeek-OCR paper: Are pixels better inputs to LLMs than text?

原始链接: https://twitter.com/karpathy/status/1980397031542989305

我们检测到您的浏览器已禁用 JavaScript。请启用 JavaScript 或切换到受支持的浏览器以继续使用 x.com。您可以在我们的帮助中心查看受支持的浏览器列表。帮助中心 服务条款 隐私政策 Cookie 政策 版权信息 广告信息 © 2025 X Corp.

## Hacker News 讨论总结:像素 vs. 文本 用于 LLM 最近 Hacker News 上的一场讨论,源于 Karpathy 的一条推文,围绕着将原始像素数据(文本图像)输入大型语言模型 (LLM) 是否比传统的文本分词更有效。 核心观点是,当前的分词方法是“有损抽象”,并且可能效率低下。一些人认为像素可能捕捉到更细微的信息,反映了人类处理视觉信息的方式——甚至将文本作为图像来阅读。另一些人则建议使用“percels”(感知信息单位)等替代表示方法可能更优越。 对话延伸到相关话题:LLM 直接处理二进制代码的可能性、考虑到并行图像处理的文本输入效率低下,以及语言结构(如中文中的表意文字)对最佳编码的影响。 虽然这个想法很有趣,但人们对计算成本表示担忧。当前的分词允许高效处理,移除它可能会显著增加资源需求。然而,在视觉-文本压缩(如 DeepSeek-OCR 论文)等领域的进展表明,存在改进的可能性。最终,这场讨论强调了重新评估 LLM 架构中的基本假设,并探索更有效的数据表示方法的趋势。
相关文章

原文

We’ve detected that JavaScript is disabled in this browser. Please enable JavaScript or switch to a supported browser to continue using x.com. You can see a list of supported browsers in our Help Center.

Help Center

Terms of Service Privacy Policy Cookie Policy Imprint Ads info © 2025 X Corp.

联系我们 contact @ memedata.com