## Heretic:语言模型的自动化去审查
Heretic 是一种新工具,旨在移除基于 Transformer 的语言模型的审查(“安全对齐”),*无需* 昂贵的重新训练。它利用一个名为“abliteration”(定向消融)的自动化过程,由智能参数优化器(Optuna/TPE)引导。
Heretic 通过微妙地修改模型的内部参数来抑制被标记为“有害”的回复,同时保留其核心智能。重要的是,它不需要对 Transformer 架构的专业知识;用户只需从命令行运行它。
该工具实现了与手动创建的去审查模型相当的结果,但对原始模型能力造成的损害更小,如 KL 散度所示。它支持许多稠密和多模态模型,但目前不支持 SSM 或具有复杂架构的模型。
安装很简单,使用 `pip install heretic-llm`,去审查过程完全自动,通常在 RTX 3090 上对一个 8B 参数模型进行处理需要大约 45 分钟。使用 Heretic 创建的去审查模型可在 Hugging Face 上找到。
## Windows GDI 漏洞通过模糊测试发现
Check Point Research (CPR) 在2025年1月发现Windows图形设备接口 (GDI) 新的基于Rust的内核组件中存在安全漏洞。通过针对GDI的增强型图元文件 (EMF/EMF+) 模糊测试活动,CPR 触发了内核级崩溃——蓝屏死机 (BSOD),原因是Rust代码中边界检查失败。
该漏洞位于 `region_from_path_mut()` 函数中,是由一个特制的EMF+文件中的错误路径几何体触发的。虽然微软将此问题归类为中等程度的拒绝服务,但CPR认为用户可控的崩溃是一个安全问题。修复程序已在OS Build 26100.4202 (KB5058499,发布于2025年5月28日) 中实施,它引入了一个边界加固的边缘处理例程,并由一个功能标志进行控制。
这一发现强调了,虽然Rust增强了内存安全性,但强大的测试和设计仍然至关重要。失败的安全检查不应导致系统故障。CPR的研究证明了主动模糊测试和彻底分析的重要性,即使在利用内存安全语言的代码库中也是如此,并且代表了第一个公开披露的基于Rust的Windows内核组件中的安全问题。
## 复古大型语言模型:摘要
本次演讲探讨了“复古”大型语言模型(LLM)的概念——那些训练数据限定于过去特定时间点,例如1900年甚至公元200年的模型。这些模型不仅仅是历史上的好奇之物,它们为科学和人文研究提供了独特的机会。
**动机**包括测试人工智能的预测能力(预测如2020年疫情等事件,*而不知道*它已经发生),通过“重新发明”早期时代的现代思想来探索科学发明,以及实现交互式的“时间旅行”对话。
**挑战**集中在数据稀缺、确保数据不被“污染”于未来知识以及高昂的训练成本。 提出的解决方案包括利用其他LLM生成的合成数据,并采用“分叉的按时间顺序训练”来降低计算成本。
进一步的概念包括允许复古LLM将任务“外包”给更强大的现代LLM(小心避免信息泄露),以及创建了解文档日期的分层LLM,以便提供特定于上下文的响应。最终,复古LLM有望为理解知识演变和拓展人工智能能力提供一种新颖的方法。
## 增量解析与垃圾回收的见解
作者在使用Ohm(一种增量解析器)和ProseMirror构建双向文本编辑器时遇到了性能问题。目标是在底层文本更改时,利用Ohm的增量解析能力来高效地更新ProseMirror文档。
最初的解决方案是“追踪”所有节点,以识别编辑期间被删除的节点——本质上是一种垃圾回收方法。然而,这违背了增量性的目的,即使对于小的更改也需要对整个文档进行扫描。
回忆起论文“垃圾回收的统一理论”中的一个关键见解,作者切换到“引用计数”方法。他们不再追踪*存活*节点,而是通过在文档更新时递减引用计数来追踪*死亡*节点。这使得他们能够快速识别被删除的节点,而无需遍历整个文档,从而显著提高了增量更新的性能。核心思想是关注识别哪些内容被*删除*,而不是哪些内容*保留*,这反映了垃圾回收中追踪和引用计数之间的对偶性。
## 人工炼金术的徒劳
历史上,炼金术士试图将贱金属转化为黄金,相信富足会带来财富。但作者指出这种逻辑上的经济缺陷——如果市场充斥着黄金,黄金的价值就会贬值,就像盐变得普遍且失去价值一样,随着生产技术的进步。
这与目前通过人工智能生成艺术进行的“炼金术”追求相呼应。虽然最初备受期待,但人工智能内容的快速传播已经降低了它的价值。人们越来越能够识别并主动*贬低*人工智能创作的作品,认为它们缺乏灵魂,并且缺乏艺术中固有的情感联系。
作者认为,艺术的价值不仅在于最终产品,还在于创作背后的挣扎、故事和意图。人工智能绕过了这个关键要素,产生了技术上新颖但最终毫无意义的内容。就像无限的黄金不会创造财富一样,无限的人工智能艺术也不会创造价值;相反,它使创作本身变得毫无价值。尽管可能导致工作岗位流失,但真正的创造力——以及它所体现的人性——将继续存在,因为正是人类表达的*稀缺性*赋予了艺术价值。
## 供应链安全:一个与计算历史同样古老的问题
Ken Thompson 在 1983 年的图灵奖演讲“对信任的思考”中,强调了一个关键且持续存在的问题:供应链安全。他展示了如何巧妙地修改 C 编译器,在不改变源代码的情况下,向“login”等程序中插入后门——这一壮举可以通过利用编译器在自我编译过程中“学习”值的方式来实现。
演讲详细描述了一个三步过程:创建自我复制程序(“quine”),利用编译器行为嵌入源代码中不存在的值,并利用这些值引入恶意代码。最近,Thompson 的原始代码被重新发现并成功运行,证明了这种漏洞依然存在。
虽然该后门并未广泛部署(据报道已被 PWB 发现并控制),但其原理仍然具有现实意义。现代系统面临类似的风险,复杂的软件依赖关系为攻击者创造了许多潜在的入口点。
当前的防御措施包括多样化的双重编译——通过使用多个独立的编译器构建代码来验证代码,以及关注可重现构建,确保从相同的输入获得一致的输出。尽管取得了进步,但核心问题仍然存在:我们越来越依赖来自不可信来源的二进制文件,因此保持警惕和健全的验证流程对于维护系统安全至关重要。Thompson 的工作提醒我们,信任必须通过努力获得,而不能想当然,尤其是在软件供应链中。