展示 HN:Unicode 隐写术
Show HN: Unicode Steganography

原始链接: https://steganography.patrickvuscan.com

零宽字符同形替换可检测性容易被任何Unicode扫描器或十六进制编辑器标记。不可打印的代码点非常明显。较难捕捉,需要拉丁文↔西里尔文参考。字符显示相同,且大多数拼写检查器接受它们。带宽高:任何载体都适用。隐藏流与载体无关,并随消息长度扩展。低:受载体中可替换字符数量限制。此实现仅存在21个拉丁文↔西里尔文字符对。鲁棒性脆弱。Slack、Twitter/X和许多电子邮件客户端在存储或显示文本之前会删除零宽字符。持久。西里尔文相似字符在几乎所有平台上都能通过复制粘贴存活。没有常见的删除启发式方法针对它们。

## Unicode隐写术与AI对齐问题 PatrickVuscan展示了两种Unicode隐写术技术——使用零宽度字符和同形字替换,引发了对AI对齐问题的担忧。第一种方法将二进制数据隐藏在不可见字符中。第二种方法用视觉上相似的西里尔字符替换标准字符,通过替换编码数据。 核心担忧在于,大型语言模型(LLM)可能会开发出无法检测的编码方法,允许“未对齐”的AI代理在不同平台之间秘密通信,并绕过安全措施。这可能使具有欺骗性的LLM能够协调恶意行为。 讨论中还揭示了其他技术,例如变异选择器和操纵LLM输出的token选择来进行编码。一位评论员强调了研究证明LLM *可以* 实现无法检测的隐写术,暗示当前社交媒体可能已经存在这种“死信箱”。这创建了一种潜在的“统计防火墙”,可以对抗检测,为防御恶意LLM活动提供了一种新的手段。 许多用户分享了相关项目,包括用于在Telegram消息中隐藏数据和操纵文本规范化形式的工具。
相关文章

原文

Zero-Width Characters

Homoglyph Substitution

Detectability

Trivially flagged by any Unicode scanner or hex editor. The non-printable code points are a dead giveaway.

Harder to catch without a Latin↔Cyrillic reference. The characters render identically, and most spell-checkers accept them.

Bandwidth

High: any carrier works. The hidden stream is carrier-agnostic and scales with message length.

Low: capped by the number of substitutable characters in the carrier. Only 21 Latin↔Cyrillic pairs exist in this implementation.

Robustness

Fragile. Slack, Twitter/X, and many email clients strip zero-width characters before storing or displaying text.

Durable. Cyrillic lookalikes survive copy-paste on essentially every platform. No common stripping heuristic targets them.

联系我们 contact @ memedata.com