| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() |
原始链接: https://news.ycombinator.com/item?id=43931366
这篇Hacker News帖子讨论了gilesthomas.com上的一篇文章,“从零开始编写LLM,第13部分——注意力机制很蠢”。评论者探讨了LLM中注意力机制的本质。一位用户重点介绍了Cosma Shalizi的一篇博文,将“注意力”等同于核平滑,这对于有定量背景的人来说阐明了这个概念。其他人对此进行了扩展,提到了核函数的近似以及谷歌对这些近似的使用。有人提出了反驳意见,认为与Transformer相比,核方法缺乏位置嵌入和高效并行化等元素。其他讨论包括代码在书籍中难以保持更新、Python库依赖项的挑战以及学习LLM的替代方法,一些人更喜欢高级解释而不是实现细节。一些人对LLM的智能表示怀疑,而另一些人则认为组件的简单性具有创造巨大潜力的可能性。
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() |
Once you realize this "Multi-headed Attention" is just kernel smoothing with more kernels and doing some linear transformation on the results of these (in practice: average or add)!
0. http://bactra.org/notebooks/nn-attention-and-transformers.ht...
reply