字节潜变量Transformer:分块比词元更具扩展性
Byte latent transformer: Patches scale better than tokens

原始链接: https://arxiv.org/abs/2412.09871

arXivLabs是一个框架,允许合作者直接在我们网站上开发和分享新的arXiv功能。与arXivLabs合作的个人和组织都已接受并认可我们开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观,并且只与坚持这些价值观的合作伙伴合作。有提升arXiv社区价值的项目想法吗?了解更多关于arXivLabs的信息。

这篇 Hacker News 帖子讨论了一篇关于字节潜伏变换器 (BLT) 的论文,重点介绍了它使用动态字节级补丁而不是 token 来进行 NLP 任务的创新方法。虽然之前已经有过类似的提交,但评论者们对 BLT 克服传统基于 token 的模型的局限性的潜力表示兴奋。 讨论涵盖的主题包括:将 ngram 哈希作为位置特征,与基于分词器的模型相比的效率考量(特别是实际运行时间),一种认为“主流机器学习”陷入了基于 Transformer 的局部最小值的观点,以及关于人工智能创新的本质(基础研究与应用和集成)的持续争论。投稿者还指出,DeepSeek 的进展表明,基础研究中仍然存在大量的优化机会。由于训练大型模型需要大量的资源,因此人们也担心新型方法的可扩展性,这些方法超出了标准的基于 token 的架构。一些评论者认为,新的算法和架构将在新的计算领域出现时展现其优势。

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com