MemeData

萨洛米，一个关于极低比特Transformer量化的研究仓库。 Salomi, a research repo on extreme low-bit transformer quantization 5 天前

SALOMI 是一个研究存储库，调查极低比特的 Transformer 量化，具体研究二进制或近二进制权重表示是否能与三元方法相媲美。它提供量化、推理、评估和实验工具，但旨在作为研究工作区，而非即用型软件包。主要发现表明，严格的 1 比特事后量化对于 GPT-2 级别的语言建模是不可行的；使用诸如 Hessian 引导的向量量化等技术，略高的比特率（~1.2-1.35 bpp）可以产生更实用的结果。该存储库包含广泛的文档——特别是 `RESEARCH.md`，提供全面的概述，以及 `HONEST_ASSESSMENT.md`，对结果进行现实评估。存在历史实验文件，但建议用户优先考虑策划的文档和验证的测试，以便最准确地理解项目的当前结论。代码采用 Apache-2.0 许可。

对不起。

电子邮件混淆：2026年哪些方法有效？ Email obfuscation: What works in 2026? 5 天前

## 电子邮件地址混淆技术总结（截至2026年1月30日）本文详细介绍了各种保护电子邮件地址免受垃圾邮件收集器的技术，以及基于实际测试的有效性统计数据。虽然*每种*方法在理论上都可能被破解，但研究发现大多数收集器出乎意料地简单，即使是简单的混淆也能产生很高的效果。 **主要发现：** * **基于JavaScript的技术（JS连接、Rot18、转换、AES加密、用户交互）在保护纯文本地址时，始终阻止了318个测试垃圾邮件发送者中的100%**。CSS `display:none` 和 HTML SVG 也实现了100%的阻止率。 * **对于可点击的“mailto:”链接，基于JS的方法再次被证明是最有效的（阻止了299个垃圾邮件发送者中的100%）**，与HTML SVG和HTTP重定向一起。 * **像HTML实体这样的简单方法提供了出乎意料的良好保护**（纯文本的阻止率为95-98%），尽管它们很容易被解码。 * **收集器优先考虑高流量页面**，这意味着访问量较少的页面可能未被抓取，从而产生虚假的安全性。作者积极利用这项研究作为“蜜罐”，跟踪垃圾邮件发送者绕过哪些技术，以完善统计数据。数据表明，实施*任何*混淆都有益处，因为大多数垃圾邮件都来自不复杂的机器人。

## 2026年电子邮件混淆：Hacker News 摘要最近 Hacker News 上出现了一场关于各种防止电子邮件收集技术的有效性的讨论，起因是一篇关于该主题的新文章。虽然用户承认电子邮件地址不可避免地会泄露，但他们争论了延迟或减少垃圾邮件的方法。诸如 HTML 实体和 `display:none` CSS 之类的简单技术，尽管易于实现，但令人惊讶地对许多收集器仍然有效。讨论了更复杂的方法，例如基于 JavaScript 的混淆，甚至 brainf*ck 编码，但由于其复杂性增加和潜在的可访问性问题，其实用性受到了质疑。许多评论者分享了个人经验，指出仅仅发布电子邮件地址通常不会导致压倒性的垃圾邮件，这可能归功于有效的垃圾邮件过滤。然而，数据泄露仍然是泄露地址的重要来源。几位用户提倡使用 plus-addressing（使用 `[email protected]`）并利用人工智能驱动的垃圾邮件过滤器，其中一位报告使用本地 LLM 达到了 97% 的准确率。共识倾向于分层方法：对公共地址使用简单的混淆，结合强大的垃圾邮件过滤和谨慎使用 plus-addressing，认识到完全保密是不现实的。

代码搜索的未来不是正则表达式 – 比 ripgrep 快 100 倍 The future of code search is not regex – 100x faster than ripgrep 5 天前

你需要启用 JavaScript 才能运行此应用。

对不起。

疯狂出租车逆向工程，第二部分 Reverse Engineering Crazy Taxi, Part 2 5 天前

这篇帖子详细介绍了对《疯狂出租车》`.shp`文件格式的反向工程过程，该格式被怀疑包含3D模型数据。在之前解码`.all`存档格式的基础上，作者以`cube0.shp`作为起点，认为其名称和大小暗示了一个简单的立方体模型。调查包括在十六进制编辑器中分析文件结构，记录模式和偏移量。通过理解GameCube的图形流水线（Flipper GPU & GX API）——特别是顶点数据和显示列表的处理方式，不断完善最初的猜测。主要发现包括识别顶点位置、颜色和纹理坐标的部分，以及包含绘制调用的显示列表。数据使用定点表示法（Q8.8）进行解释，并与GameCube的顶点属性表结构对齐。最终，这使得能够在浏览器中使用noclip.website的GX模拟层成功渲染立方体，验证了反向工程的格式。作者强调了在反向工程过程中详细记录、用代码测试理论以及利用现有文档的重要性。下一步是处理剩余的2700个`.shp`文件及其可能更复杂的结构。

对不起。

你的注册表是一个武器。 Subscription bombing and how to mitigate it 5 天前

## Suga 与订阅轰炸的兴起最近，Suga 检测到一种微妙但恶意的攻击，名为“订阅轰炸”。这种攻击涉及机器人使用真实用户的电子邮件地址在大量网站上注册虚假名称，用不必要的“欢迎”和验证邮件淹没他们的收件箱。攻击目标并非入侵账户本身，而是将关键安全警报——例如密码重置请求或金融交易确认——淹没在噪音中，从而使攻击者能够实施欺诈。 Suga 最初注意到少量不活跃账户拥有无意义的名称，并伴随着“忘记密码”页面的活动增加。分析显示，机器人使用被盗电子邮件地址注册，然后立即请求密码重置，在几分钟内向受害者发送大量电子邮件。该攻击旨在低容量并规避典型的机器人检测。为了应对这种情况，Suga 实施了 Cloudflare Turnstile，一种 CAPTCHA 替代方案，并限制电子邮件发送，*仅*在地址确认之前发送验证电子邮件。这些更改有效地阻止了攻击。虽然 Suga 受到的直接影响很小，但团队认识到对受害者的重大危害，并主动解决了漏洞，强调了所有网站进行电子邮件验证的重要性，以防止成为这种有害行为的帮凶。

展示 HN：188 部宪法的三维语义地图（3 万条条款，嵌入式向量） Show HN: Semantic atlas of 188 constitutions in 3D (30k articles, embeddings) 6 天前

嵌入将法律文本转化为向量，聚类步骤将讨论相关宪法主题的向量分组。在国家模式下，颜色显示政治来源。在聚类模式下，颜色显示主题邻域。大型、密集的云团通常表示重复出现的宪法思想，例如权利、机构、紧急权力、选举或修正案规则。孤立的点通常标记不寻常的条款、罕见的措辞或特定国家的宪法设计选择。该平台提供两种类型的搜索：关键词搜索查找字面术语出现，而语义搜索检索概念上附近的段落，即使没有匹配的术语。搜索结果突出显示3D画布中的语义空间区域，将您阅读的内容与其位置联系起来。

## 宪法语义图谱：摘要一个名为[constitutionalmap.ai](https://constitutionalmap.ai)的新项目，提供了一种比较宪法的新方法。开发者joaoli131利用Gemini嵌入和UMAP投影创建了一个3D“语义图谱”，其中包含188个国家/地区的30,828条宪法条款。这使得用户能够找到概念上相似的条款，*即使措辞不同*，从而克服了传统关键词搜索或复杂法律工具的局限性。该项目托管在GitHub上，源代码可供审查。初步反馈表明，可以将该项目扩展到包括历史宪法，以可视化法律框架随时间推移的演变——对于宪法频繁变化的国家（如巴西）来说，这是一个特别有趣的前景。一位评论员还提出了根据理想主义或乌托邦元素过滤宪法的问题，突出了法律文件与社会现实之间的复杂关系。

哥德尔发现了什么 (2020) What Gödel Discovered (2020) 6 天前

## 哥德尔不完备定理：摘要 1931年，库尔特·哥德尔在25岁时发表了一项具有深远影响的数学证明。在300年来，数学家们一直致力于统一核心原理，旨在从单一的基础系统推导出所有真理——就像牛顿统一了地球和天体上的引力一样。弗雷格的集合论以及罗素和怀特海的《数学原理》等尝试，旨在创建一个完整且一致的系统，能够证明所有正确的数学陈述，而不会产生矛盾。哥德尔证明了这一追求从根本上是不可能的。他表明，在任何足够复杂的形式系统（如《数学原理》）中，该系统能够表示基本的算术，那么其中*总是*存在无法在该系统内证明的真命题。他通过巧妙地将数学陈述编码为数字来实现这一点，使系统能够“自我指涉”。这种自指导致了一个悖论性的陈述——本质上是“这个陈述是不可证明的”——如果这个陈述为真，则证明了不完备性；如果这个陈述为假，则证明了一致性。哥德尔定理并没有使数学无效，但它们揭示了内在的局限性。它们表明数学真理超出了任何单一形式系统内的可证明范围，并且没有系统能够明确证明自身的自洽性。这一发现的影响超越了数学领域，暗示了纯粹的算法或形式推理所能达到的极限。

## 哥德尔不完备定理：摘要一篇最近的博文引发了关于库尔特·哥德尔不完备定理的讨论，评论者们争论着理解它们的最佳方式。虽然该文章侧重于哥德尔编码（一种将语句编码为数字的方法），但有人认为这是一个掩盖核心思想的技术细节。更易理解的方法是利用勒布定理。本质上，哥德尔证明了在任何足够复杂、一致的公理系统中（例如数学），总会*始终*存在无法在该系统内证明的真命题。这并非由于我们的局限性，而是形式系统的一个基本属性。核心概念与能够“自我指涉”的系统有关。如果一个系统能够断言自身的一致性，哥德尔表明它一定是矛盾的。这打破了对所有数学乃至描述复杂现象（如狗的行为）的单一、完备且一致的公理系统的希望。这些定理适用于任何能够表达自我指涉的系统，突出了形式化的局限性。虽然更强的公理*可以*证明一致性，但它们会引入新的不可证明的命题，从而产生无限回归。

Linux 上的 Steam 使用率在三月跃升至 5% 以上。 Steam on Linux Use Skyrocketed Above 5% in March 6 天前

2026年3月，Steam在Linux上的用户份额大幅增长，达到创纪录的5.33%——是macOS (2.35%)的两倍以上，比2月增长了3.1%。此前，Steam在Linux上的增长缓慢，之前在2025年底达到约3.5%的峰值。此次增长与Valve Steam China数据的修正同时发生，显示简体中文用户大幅下降，而英语使用量有所增加。目前，约25%的Linux玩家使用Steam OS。值得注意的是，Windows市场份额下降了4.28%，降至92.33%。AMD CPU在Linux Steam用户中仍然占据主导地位，接近70%，这可能是由于Steam Deck的AMD硬件以及AMD产品与Linux的开源兼容性所致。这些数据突显了Linux游戏在Steam生态系统内日益增长的趋势。

克劳德代码泄露 The Claude Code Leak 6 天前

## Claude 代码泄露：超越代码本身最近 Claude 代码的源代码泄露引发了讨论，但其重要性在于它揭示了不断演变的软件格局，而不在于代码的质量——据一些人说，令人惊讶的是“垃圾”。泄露事件凸显了软件创作的入门门槛正在降低；即使是存在缺陷的代码，如果与市场需求高度契合，也能取得巨大成功，Claude 代码的快速增长就是一个例证。 Anthropic 的开发方法优先考虑代码*做什么*，而不是*如何做*，侧重于强大的可观察性和自我修复系统，以快速迭代和解决问题。这表明，传统的编码标准可能不如功能强大、快速演进的产品重要。版权影响也值得关注，这与 Anthropic 自身关于人工智能生成内容的论点相呼应。最终，泄露事件强化了用户更看重无缝集成和问题解决，而不是完美的代码。开源代码不会对 Claude 代码的价值产生重大影响，因为用户为整体*体验*——一个完整、良好集成的服务——付费，而不是底层机制。人工智能的未来在于模型与应用的协同作用，证明了感知和结果比代码完美更重要。

逃离奥加拉拉陷阱 Escaping the Ogallala Trap 6 天前

## 道路的悲剧：奥加拉拉含水层带来的教训就像高效灌溉技术耗尽了奥加拉拉含水层——美国农田的重要水源——新技术正面临着使我们的道路网络不堪重负的风险。该含水层减少了超过2.86亿英亩-英尺的水量，这成为了“共有地悲剧”的警示故事，不受限制的获取导致资源枯竭。现在，自动驾驶汽车承诺带来类似的转变。虽然它们提供了潜在的好处，例如增加道路通行能力和舒适的旅行体验——设想移动办公室或睡眠隔间——但它们也可能加剧交通拥堵。如果道路使用没有成本，这些车辆将被*过度*使用，导致交通堵塞，因为人们会选择便利性而不是速度。避免这种情况的关键在于实施道路定价，效仿其他基础设施中使用的成功策略。“对等原则”——收取道路使用费*并*投资于改进——加上“祖父条款”（将收费应用于新技术，而非现有司机）可以使这些政策在政治上可行。英国最近对电动汽车征税就体现了这种方法。在自动驾驶汽车占据主导地位*之前*立即采取行动至关重要。否则，我们就有可能让我们的道路变成另一个枯竭的共有资源。

对不起。

每日HackerNews RSS