连续自回归语言模型
Continuous Autoregressive Language Models

原始链接: https://arxiv.org/abs/2510.27688

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都认同并接受了我们开放、社群、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与坚持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?了解更多关于arXivLabs的信息。

这个Hacker News讨论围绕着一篇关于**连续自回归语言模型**的新研究论文,旨在通过在连续向量空间而非离散token上运行来提高效率。 核心思想是预测代表文本的向量,然后通过自编码器将其重构为token。用户们争论是否将预测的向量*反馈*到输入端——作者尝试过这种技术,但发现由于难以从紧凑的表示中“解包语义信息”而面临困难。 主要讨论点包括对**推理**和**强化学习微调**的潜在益处,尽管目前的局限性阻止了应用强化学习,因为调整logits存在问题。 还有关于优化参数(如'K',即重构的token数量)以及如果该技术证明可扩展,则在推理中可能大幅降低成本的讨论。 一些人认为这与现有的方法(如字节潜在transformer)相似。
相关文章

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com