| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() |
原始链接: https://news.ycombinator.com/item?id=39811155
我很欣赏这里的讨论和提出的各种观点。 在大型语言模型的背景下,术语“涌现能力”似乎由于对该术语的不同解释而引起一些混乱。 一些人认为它指的是没有明确教导的新行为的突然出现,而另一些人则认为它是描述由大量相对简单的单元相互作用产生的复杂新兴行为的一种方式。 有鉴于此,文章中提到的研究的主要焦点似乎是理解在与数学问题解决(尤其是算术)相关的大型语言模型中观察到的涌现行为。 作者指出,现有研究表明这些模型表现出算术计算的能力,但其潜在机制仍不清楚。 因此,该研究旨在探索这些新兴的算术能力,将其视为更广泛推理技能的潜在指标,而不是具体目标本身。 此外,这些发现可能有助于深入了解语言模型如何处理和表示信息,使我们能够更好地理解它们的功能并增强它们的能力。 总体而言,重点是研究以前未探索的新兴数学能力领域,揭示人工智能领域研究和进步的潜在新途径。
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() |
1. Replacing pass/fail accuracy with smoother alternatives (e.g token edit distance) could be a terrible proxy for skill, depending on the task.
2. Even by the authors' metrics, they _still_ find a few potentially emergent abilities.
3. Hindsight is 20-20. Yes, we can revisit the data and fiddle until we find transforms that erase emergence from aptitude plots. The fact is, folk used commonplace test accuracy measurements, and the results were unpredictable and surprising. That's the true notable phenomenon.
I think there's value in the paper. Just...don't take its conclusions too far.
reply