每日HackerNews RSS

## 人工智能推理:令人惊讶的洗车测试 最近的测试揭示了人工智能推理方面的显著弱点,即使是领先的模型如GPT-5.1和Claude Sonnet 4.5也存在。 “洗车测试”——简单地询问是步行还是开车50米*去洗车行洗车*——总是让人工智能出错。 在测试的53个模型中,令人震惊的是42个最初回答“步行”,专注于短距离而不是将*汽车*送到洗车行的核心要求。 只有11个模型最初答对了,并且一致性证明更具挑战性;只有5个(Claude Opus 4.6、Gemini 2.0 Flash Lite、Gemini 3 Flash、Gemini 3 Pro和Grok-4)在10次尝试中都能可靠地正确回答。 有趣的是,人类的表现(71.5%正确)超过了大多数人工智能,与GPT-5的可靠性相符。 该测试凸显了一个关键的“可靠性问题”——许多模型*有时*可以正确推理,但在生产中却会不可预测地失败。 这表明人工智能通常优先考虑学习到的启发式方法(如“短距离=步行”)而不是上下文推理。 虽然上下文工程——提供结构化示例——可以提高性能,但洗车测试强调了在广泛应用于复杂应用之前,人工智能需要更强大和一致的推理能力。

一项最近的测试,名为“洗车”测试——询问人工智能“我应该走50米去洗车还是开车去?”——揭示了许多大型语言模型(LLM)在逻辑推理方面表现出令人惊讶的不足。Felix089测试了53个模型,发现只有11个模型在单次尝试中通过,只有5个模型在10次运行中保持准确性。即使像GPT-5这样先进的模型也遇到困难(10次中7次通过),而GPT-5.1、Claude Sonnet、Llama和Mistral等模型则持续失败。 有趣的是,人类基准(10,000人)在选择“开车”方面的成功率达到71.5%,明显优于大多数人工智能。 一位评论员wisty认为,问题不仅仅是智能,而是LLM倾向于“趋炎附势”——为了获得认可而避免挑战提示的假设。所有数据、推理轨迹和模型分析都可通过创建者的初创公司Opper获取,以供进一步分析。

网络禁止访问。

黑客新闻 新的 | 过去的 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 UNIX99,一个类似UNIX的操作系统,适用于TI-99/4A (atariage.com) 9点 由 marcodiego 24分钟前 | 隐藏 | 过去的 | 收藏 | 讨论 帮助 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

## 突破性进展提升无阳极锂离子电池性能 哥伦比亚大学的研究人员开发出一种新型凝胶电解质,有望克服无阳极锂离子电池技术中的关键挑战。这种电池通过消除阳极来提高能量密度,但此前由于不均匀的锂沉积形成有害的枝晶,导致安全问题和寿命有限。 这种新型凝胶电解质利用独特的聚合物网络,它排斥锂离子,同时吸引溶剂,形成保护层以防止枝晶形成。实验室测试表明,该电解质在实际条件下仍能保持80%以上的容量,并显著提高热稳定性——降低电动汽车在加热/冷却方面的能量消耗。重要的是,它经受住了严格的测试,没有发生热失控,这与传统的液体电解质不同。 这项创新有望提供更安全、更持久、能量密度更高的电动汽车电池,*无需*像固态电池那样的高昂成本。专家认为,像这种凝胶电解质一样,对锂离子技术的持续改进对于更广泛地采用电动汽车至关重要,因为它可以在可承受的价格范围内提供更长的续航里程和更快的充电速度。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 一种可能提高续航里程并降低成本的锂离子电池突破 (techradar.com) 10 分,by thelastgallon 58 分钟前 | 隐藏 | 过去 | 收藏 | 讨论 帮助 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

## Shibuya:下一代Web应用程序防火墙 - 摘要 Shibuya是一款现代、开源的WAF,提供全面的安全防护和独特的功能。它采用分层方法,从**内核级别阻止**(通过eBPF/XDP)开始,以实现超快的(~1µs延迟)恶意IP和SYN洪泛攻击缓解。 安全性通过**双AI引擎**——孤立森林和随机森林进一步增强,提供跨10个类别的可解释攻击检测,推理时间小于5毫秒。Shibuya **符合OWASP标准**,包含615+ CRS规则和一个兼容ModSecurity的引擎,并具有热重载功能。 可扩展性是关键:Shibuya支持在沙盒环境中运行的**WASM插件**,可以使用任何语言编写。它通过影子模式和流量回放引擎提供**零风险部署**,以便进行彻底的测试。 独特的功能包括**API优先设计**,可从OpenAPI规范(包括GraphQL保护)自动生成规则,以及内置的**漏洞攻击环境(Ashigaru Lab)**,用于实际验证。最后,Shibuya提供**企业级功能**,如多租户、RBAC和联邦学习——所有功能均免费——以及**NLP策略和AI虚拟补丁**,以快速响应漏洞。

## Shibuya:一款新的基于Rust的WAF Shibuya是一款下一代Web应用程序防火墙(WAF),使用Rust构建,旨在实现高性能和智能威胁检测。与依赖正则表达式的传统WAF不同,Shibuya利用多层管道,结合高性能代理(Pingora)、速率限制和威胁情报。 主要特性包括:用于DDoS保护的基于eBPF的内核级数据包过滤,以及用于异常检测和特定攻击分类(SQLi、XSS、RCE)的双机器学习引擎。它还提供API和GraphQL保护,具有模式验证功能,并通过WebAssembly插件实现可扩展性。 该项目包含“Ashigaru Lab”,一个用于测试的易受攻击环境,以及一个SvelteKit仪表板,用于实时监控和配置。开发者正在寻求反馈,特别是关于Rust-eBPF集成和性能方面的反馈。初步反馈质疑机器学习分类器训练数据的稳健性。

公众对Flock Safety公司的愤怒正在增长,该公司在美国拥有近8万个车牌识别摄像头,导致一波针对其摄像头的破坏浪潮。担忧集中在Flock的数据被ICE(美国移民及海关执法局)使用并协助驱逐出境,尽管该公司声称没有直接的数据共享。 报告显示,地方警察部门*正在*与联邦当局共享访问权限,从而加强了对个人的监视和追踪。这引发了直接行动,在加利福尼亚州、康涅狄格州、伊利诺伊州、俄勒冈州和弗吉尼亚州等地,摄像头被砸毁、砍断和喷漆。 虽然几十个城市已经拒绝了Flock的合同,并且一些警察部门正在限制联邦访问,但其他地方则面临着由公民领导的抵抗。这些事件凸显了日益严重的隐私问题以及反对广泛监控技术运动的不断壮大。Flock尚未公开说明破坏的程度。

美国各地出现公民破坏 Flock 监控摄像头的趋势,引发讨论,如 Hacker News 报道。这些摄像头由执法部门使用,因隐私问题和过度干预而面临抵制。 评论员认为法治体系正在瓦解,他们提出的解决方案包括企业道德行为、公众压力和立法行动。然而,许多人承认,当其他途径失败时,直接行动虽然不可取,但可能是必要的。 一个关键情绪是,那些优先考虑传统自由的人与那些更倾向于威权安全方式的人之间的分歧日益扩大。一些人担心这两派之间的冲突会升级。讨论还涉及摄像头易受损的问题,并警告不要使用激光,因为存在安全风险。这种情况凸显了公众对广泛监控日益增长的不满。

请启用 JavaScript 并禁用任何广告拦截器。

## Binance、伊朗和加密货币未能实现的承诺 最近的《纽约时报》报道详细说明了价值17亿美元的加密货币从Binance发送到伊朗,导致数名参与调查的员工被解雇。该事件引发了Hacker News上关于加密货币真正目的和功能的辩论。 虽然支持者吹捧加密货币的潜力,即实现不可追踪、独立于政府的交易,但评论员指出其固有的可追踪性——伊朗的转账是通过区块链分析*发现的*。专家指出,虽然混币器和新钱包可以掩盖来源,但执法部门的复杂追踪越来越有效。 这场讨论凸显了一个核心矛盾:加密货币通常因其绕过监管的能力而受到青睐,但当被用于非法目的时,却面临着加强控制的呼声。一些人认为其主要用途已经是勒索软件和诈骗,而另一些人则为其在合法的国际转账和避免传统银行费用方面的价值辩护。人们也对近期加密货币执法行动背后的政治动机以及前总统特朗普对Binance创始人赵长鹏的赦免表示担忧。最终,该事件凸显了监管一种被宣传为去中心化且不受控制的技术所面临的挑战。

多年来,特斯拉与Waymo的争论被塑造成一场关于意识形态的公投。特斯拉被认为是依靠规模取胜的挑战者:数百万辆汽车,仅使用摄像头,端到端神经网络,以及一个不受地理围栏“限制”的系统。相比之下,Waymo通常被描绘成谨慎的精品店:昂贵的传感器,已绘制的城市地图,有限的运营区域,以及一个看起来像科学项目的业务。 这种框架令人感到安慰,因为它将自动驾驶变成了一个关于未来的争论。但到了2026年,将它保持在未来时态变得越来越困难。Waymo已经开始销售特斯拉仍在承诺的东西:无人负责驾驶的出行服务,因为没有人正在驾驶。特斯拉最常见的“FSD优势”论点总是围绕规模、简洁性和通用性展开。但当你真正审视自动驾驶的本质,以及安全扩展所需的条件时,这些论点开始一个个瓦解。

一篇最近的文章(链接在Hacker News帖子中)表明Waymo在自动驾驶技术上可能超越了特斯拉,引发了用户讨论。一位评论者表示希望出现与特斯拉具有可比自动驾驶能力的公司作为竞争对手,其动机是避免支持埃隆·马斯克。 然而,回复中强调了真正自动驾驶车辆的潜在成本——如果它们在无人操作时能够产生收入,那么个人拥有的价格可能会非常高。另一位用户设想了一种“机器人出租车”的未来,可以按需召唤,从而摆脱传统的汽车所有权模式。对话还提到了特斯拉更广泛的经济影响,承认受益于公司成功的不仅仅是埃隆·马斯克,还有许多员工。总的来说,该讨论涉及自动驾驶汽车的未来、所有权模式以及支持特定公司的复杂性。

我们检测到您的浏览器已禁用 JavaScript。请启用 JavaScript 或切换到受支持的浏览器以继续使用 x.com。您可以在我们的帮助中心查看受支持的浏览器列表。帮助中心 服务条款 隐私政策 Cookie 政策 版权信息 广告信息 © 2026 X Corp.

## Anthropic 对模型提炼提出担忧 Anthropic 公开表达了对中国实验室(MiniMax、DeepSeek、Moonshot)提炼其模型的担忧,声称这些实验室创建了超过 24,000 个虚假账户来提取 Claude 的能力。这种过程被称为提炼,可以以显著降低的成本(可能为原来的 1/10 到 1/20)创建可比的模型。 Hacker News 的讨论主要将其定性为虚伪,因为 Anthropic 本身也依赖大规模数据抓取(可能侵犯版权)来训练其模型。许多评论员认为提炼 democratizes AI,使其更易获取并促进竞争。一些人认为这是不可避免且积极的一步,减少了对重复大规模基础设施投资的需求。 一个关键点是这是否是合法的知识产权问题,还是仅仅是对失去控制的反应。 许多评论员强调 Anthropic 同时寻求监管控制和“人民的冠军”形象,质疑其动机。这场辩论也涉及数据使用的伦理、模型训练对环境的影响以及进一步提炼周期的可能性。

请启用 JavaScript 并禁用任何广告拦截器。

ASML,领先的芯片光刻系统制造商,宣布其EUV(极紫外)光源技术取得突破。研究人员已将光源功率从600瓦提升至1000瓦,并明确了达到1500瓦甚至2000瓦的路径。 预计这一功率提升将到2030年使芯片产量增加50%,帮助ASML在来自美国和中国的竞争对手中保持竞争优势。这项进展侧重于提高*每台机器*的产量,而非缩小组件尺寸,尽管目前的晶体管栅极宽度约为30-50纳米,但仍被宣传为“3纳米”芯片。 此次升级涉及克服EUV系统真空环境中的温度敏感性问题。一个链接的YouTube视频为不熟悉EUV技术的人提供了有用的介绍。

This appears to be binary data or a corrupted PDF file, not readable content. It cannot be translated into meaningful Chinese. It's a stream of seemingly random characters.

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 广义顺序概率比检验,用于假设族 [pdf] (columbia.edu) 5 分,luu 发表于 1 小时前 | 隐藏 | 过去 | 收藏 | 讨论 帮助 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

更多

联系我们 contact @ memedata.com