权重稀疏的Transformer具有可解释的电路 [pdf]
Weight-sparse transformers have interpretable circuits [pdf]

原始链接: https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

这看起来不像可以翻译成可读中文的内容。它是一段PDF文件的数据流,包含乱码和程序指令,而不是自然语言文本。

## 权重稀疏Transformer与可解释性:摘要 一项最新研究探讨了通过强制**权重稀疏性**(确保大部分权重为零,为特定任务创建隔离的“电路”)来提高Transformer模型的可解释性。核心思想是,密集模型将特征塞入共享权重中,阻碍理解,而稀疏性允许神经元表示单一、可解释的概念。 研究人员正在探索两种主要方法:直接训练稀疏模型(旨在完全理解,但目前仅限于较小模型)和使用诸如稀疏自编码器之类的技术从现有密集模型中*解码*电路(更立即适用于较大模型,但可能精度较低)。 讨论的重点是这些方法之间的权衡以及扩展稀疏性的挑战。一个关键点是,实现真正的可解释性可能需要从根本上重新思考硬件,以有效地处理稀疏计算,因为当前的GPU针对密集运算进行了优化。此外,还有探索将这项工作与叠加、符号计算甚至语言模型中的量子类似现象联系起来,这表明了一条统一神经和符号人工智能的途径。最终目标是理解模型*如何*工作,而不仅仅是*它们*是否有效,从而可能带来更安全、更可靠的AI系统。
相关文章

原文
%PDF-1.5 % 2088 0 obj > endobj 2089 0 obj > /W [ 1 3 1 ] /Index [ 2088 213 ] /Info 1303 0 R /Root 2090 0 R /Size 2301 /Prev 3891037 /ID [] >> stream xcbd`g`b``8 "@$c>̋";" /DrgH 1J@dwH,in&dC,L.d`%GIbIQrp
联系我们 contact @ memedata.com