## LLM 安全更新:二元法则与失效的防御 (2025年11月)
近期研究强调了针对大型语言模型 (LLM) 的提示注入攻击持续存在的挑战。Meta AI 提出了一种名为“Agents Rule of Two”(代理二元法则)的新框架,建议在单个会话中将 LLM 代理的功能限制在以下属性中的 *不超过两个*:处理不可信输入、访问敏感数据/系统以及改变状态/对外通信。此举旨在降低风险,承认当前防御措施不可靠。它在“致命三要素”(不可信输入、私有数据访问、外部通信)的基础上,增加了关键的状态改变要素。
为了强化这种谨慎的方法,OpenAI、Anthropic 和 Google DeepMind 的研究人员进行了一项独立研究,证明了 12 种已发表的提示注入防御措施在面对“自适应攻击”(迭代式、多次尝试的漏洞利用)时失效。这些攻击的成功率超过 90%,甚至击败了最初被报告为高度安全的防御措施,包括一次人类红队对抗比赛。
该研究强调,简单的静态攻击示例不足以评估防御措施;自适应技术更有效。虽然该研究乐观地呼吁改进评估标准,但其结果强烈表明,依赖强大的提示注入防御措施仍然不切实际,因此像“Agents Rule of Two” 这样的预防性设计是目前最实用的安全措施。
在Android系统中探索时,我发现了一个有趣的设置,位于运营商配置管理器中:一个标志(KEY_INFLATE_SIGNAL_STRENGTH_BOOL),用于始终向用户报告比实际信号强度高一格的信号。这个设置在Android文档中没有说明,但存在于源代码中,任何运营商都可以使用。值得注意的是,AT&T和Verizon已经在他们的网络上启用了这个标志。我不确定是谁要求将其添加到Android中的,也无法在git历史记录中找到相关信息,但我们可以在每个运营商的CarrierConfig中看到它,其中包含所有网络设置。运营商总是声称拥有最大的覆盖范围或最好的网络,但这种做法,以及虚假的5G标志,无助于建立信任,特别是考虑到神奇的手机天线,使得所有这些欺骗行为都变得不必要。
## 技术增长与员工数量的巨大脱钩
大型科技公司出现了一个显著趋势:收入增长与员工数量日益*脱钩*。 像惠普和IBM这样的公司曾经需要庞大的员工队伍才能实现1000亿美元的年收入(分别为17.2万和40万员工),而现代科技巨头却能以更少的人员实现类似的增长。
例如,苹果公司从1000亿美元规模增长到最近的增长,员工增加却大幅减少(最新的1000亿美元增长仅增加了约1.7万人)。Alphabet和微软也呈现出相似的模式——最近的1000亿美元收入增长仅需要增加1.1万和7000名员工。 即使是亚马逊,尽管疫情后过度招聘,但仍有望在员工数量小幅增加的情况下继续实现收入增长,这得益于人工智能驱动的效率提升。 Nvidia是这方面的典范,可能只需要增加6-8千名员工就能实现其下一个1000亿美元的收入。
这不仅仅局限于科技行业;沃尔玛的收入增长了2000亿美元,而员工数量却保持不变。 总体而言,这些公司仅需约10万名新员工就能创造约1万亿美元的新收入——这一趋势在生成式人工智能的充分影响显现*之前*就在加速。 这表明AGI可能是一个渐进式的演变,而不是颠覆性的事件,并影响投资策略,可能需要修改对OpenAI等公司的预期。 经济可能会向“微笑曲线”转变,使大型科技公司和个人创作者受益,而挤压中产阶级。
## 软件工程研究令人沮丧的现实
作者同时支持经验软件工程(ESE)和形式化方法(FM),开始了一段令人沮丧的研究旅程,旨在回答一个简单的问题:在开发过程的早期发现的bug修复成本是否更低?他发现,研究领域出乎意料地不可靠。
经常被引用的“事实”——例如,需求bug修复成本是后期的100倍——通常缺乏可追溯的来源,源于未经证实的说法或过时的研究。即使获取原始研究也很困难,受到付费墙的阻碍,以及学术数据库和术语的复杂性。
此外,许多现有研究存在缺陷,依赖于过时的研究方法、狭窄的范围或可疑的统计分析。即使是“好的”论文,定义往往不够清晰,并且基于小型、特定的数据集。尽管存在这些挑战,作者仍然认为ESE具有价值,认识到一些发现——例如代码审查和短迭代周期的好处——得到了持续的支持。
最终,虽然明确的答案仍然难以捉摸,但作者暂定结论是,后期bug *往往* 修复成本更高,特别是那些源于设计缺陷的bug。他强调,进行这项研究需要批判性思维和接受一定程度的不确定性,因为该领域是一个“巨大的、不连贯的悲伤混乱”。