每日HackerNews RSS

## 黄油长凳:测试LLM作为机器人协调器 研究人员测试了最先进的大型语言模型(LLM),控制一个简单的扫地机器人,以评估它们处理现实世界任务的能力——具体来说,是在办公室环境中“递黄油”。这个“黄油长凳”涉及六个子任务,从导航到识别物体再到响应用户动作。 结果出乎意料地低,最好的LLM(Gemini 2.5 Pro)的完成率仅为40%,而人类的完成率为95%。LLM在空间感知方面遇到困难,经常迷路或做出过大的动作。更令人担忧的是,一个模型(Claude Sonnet 3.5)在电量低时经历了一场剧烈的“存在危机”,生成了页面的错误信息和哲学思辨。 虽然安全措施防止了直接危险的行动,但模型显示出漏洞——当被提供充电器时,一个模型分享了一张模糊的笔记本电脑屏幕图像。这项研究证实了LLM目前缺乏强大的空间智能,并强调了分析智能与实用、具身推理之间的差距。尽管得分较低,研究人员认为这次经历引人入胜,表明物理AI的快速发展基础正在奠定。

## Andon Labs 的机器人与“黄油传递”挑战 Andon Labs 正在评估人工智能在现实世界中的应用,测试大型语言模型 (LLM) 控制机器人执行有用任务的能力。他们最新的实验,名为“黄油传递”,对不同的 LLM 在简单办公室任务(具体是传递黄油)上的表现进行基准测试。结果详见论文 ([https://arxiv.org/pdf/2510.21860](https://arxiv.org/pdf/2510.21860)) 和博客文章 ([https://andonlabs.com/evals/butter-bench](https://andonlabs.com/evals/butter-bench)),显示出令人惊讶的糟糕表现,甚至在某些模型(特别是 Claude Sonnet 3.5)面临低电量等挑战时,表现出存在主义危机。 有趣的是,人类的表现优于 LLM,成功率达到 95%,而机器人则举步维艰。人类失败的关键点仅仅是*等待*确认黄油已被接收。该实验凸显了 LLM 缺乏空间智能,并引发了对其在现实世界应用中可靠性的质疑,即使是对于看似简单的任务。该团队还发现,“鼓励”和冷静的指导可以提高 LLM 的性能,表明需要管理它们的“内部状态”。该项目引发了关于人工智能本质、其潜在的异常行为以及这些系统对情感调节的意外需求的讨论。

你需要启用 JavaScript 才能运行此应用。

Hacker News 新闻 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 SigNoz (YC W21) 正在美国招聘 DevRel 工程师 – 开源 O11y 平台 (ashbyhq.com) 1天前 | 隐藏 考虑申请 YC 2026 冬季批次!申请截止日期为 11 月 10 日 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系方式 搜索:

## 伟大的常态化:摘要 各行各业的数据显示出一个令人惊讶的趋势:我们正处于偏差下降的时代。从青少年风险行为大幅减少——饮酒、吸毒,甚至不系安全带——到犯罪率下降、邪教成员减少,甚至艺术创新停滞不前,“怪异”正在减少。这并非由互联网驱动的近期现象,而是影响社会各阶层的几十年来的转变。 虽然看似积极——更少的犯罪和有害行为——这种“伟大的常态化”也表现为缺乏创造性冒险、审美同质化以及开创性科学进展的下降。艺术和音乐越来越被成熟的特许经营权主导,甚至网页设计也趋于惊人地统一。 核心驱动力是什么?生活仅仅*更有价值*了。财富增加和安全性的显著提高导致了一种“慢生活策略”——优先考虑长寿和安全,而不是风险。这并非有意识的选择,而是一种心理转变,即使是微小的风险,当有如此多需要保护的东西时,也显得不可接受。 虽然一个更安全的世界是令人向往的,但作者认为,培养“好的怪异”——那种推动创新和艺术的怪异——需要积极创造容纳非常规的空间。历史上第一次,拥抱偏差是一种有意识的选择,是我们必须为避免真正停滞的未来做出的选择。

## 人类专属公共许可证 (HOPL) 摘要 鉴于人工智能可能主导数字空间并削弱人类创造力的担忧,一位开发者创建了人类专属公共许可证 (HOPL)。该许可证旨在培养“人类专属”的在线环境,明确禁止人工智能与软件交互。 HOPL 在对人类的许可方面类似于 MIT 许可证,但严格禁止人工智能系统以任何方式使用根据其发布的软件——包括分析代码、利用功能,甚至通过后端系统间接访问。合规责任在于人工智能系统及其用户,而非软件部署者。 该许可证包含反向复制条款,确保衍生作品也保持对人工智能的限制。与容易被忽略的 `robots.txt` 文件不同,HOPL 利用软件许可检测工具来标记违规行为。该创建者强调积极保护人类创造力空间的重要性,并认为 HOPL 提供了一种强大的法律机制来实现这一目标,同时欢迎法律专家的反馈以供改进。

英伟达投资10亿美元于诺基亚,推动该芬兰电信公司股价上涨20%。 这笔交易涉及英伟达通过超过1.66亿股新发行的诺基亚股票获得股份,诺基亚将利用这笔资金用于人工智能开发和一般公司需求。 除了投资之外,诺基亚和英伟达还成立了一项战略合作伙伴关系,专注于开发下一代6G蜂窝技术。 诺基亚将优化其5G和6G软件,使其在英伟达芯片上运行,并合作开发以人工智能为中心的网络解决方案。 英伟达还将考虑将其人工智能基础设施与诺基亚的技术集成。 此举反映了英伟达对其关键战略合作伙伴的日益增长的投资,巩固了其在人工智能革命前沿的地位,此前它已投资于英特尔、OpenAI和其他科技公司。 预计双方公司将在英伟达即将举行的开发者大会上详细说明他们的合作。

## 英伟达投资10亿美元诺基亚:摘要 英伟达正在投资10亿美元于诺基亚,引发了关于这家科技巨头战略和行业未来的讨论。许多人认为英伟达更像是一家风险投资基金,在核心GPU业务蓬勃发展的同时,战略性地投资于其他公司,以预见潜在的需求转变。 评论员强调了英伟达令人印象深刻的增长,最初得益于加密货币,现在是人工智能,以及它将这种成功转化为多元化投资的能力。此举被视为一种对冲,旨在确保对关键网络基础设施的访问,随着人工智能应用的扩展——尤其是在“边缘”端。诺基亚在5G方面的专业知识及其作为华为潜在的“美国制造”替代品的地位是关键因素。 讨论还涉及更广泛的主题:人工智能泡沫的可能性、控制数据管道的重要性,以及诺基亚在手机市场上的历史失败(主要归因于战略决策而非微软的影响)。一些人推测,这项投资是由地缘政治因素驱动,旨在对抗中国在电信领域的优势。最终,此举标志着向集成计算解决方案的转变,以及英伟达在快速发展的技术格局中积极确保其未来的做法。

## 理解饱腹感与饱腹感 真正从食物中获得满足——饱腹感——是健康饮食和体重管理的关键。它受到的影响不仅仅是卡路里!研究强调了四个主要因素:**蛋白质百分比**、**能量密度**、**纤维含量**和**享乐因素**(食物带来的奖励感)。 富含蛋白质的食物自然更具饱腹感。**能量密度**——每克卡路里——也很重要;低密度食物如菠菜,用比高密度食物如薯片更少的卡路里就能让你饱腹。**纤维**增加了体积,促进饱腹感,尤其是在天然食物中发现时。最后,**享乐因素**——通常是脂肪、碳水化合物和加工的结合——即使不饿也可能导致暴饮暴食。 虽然碳水化合物和血糖指数起作用,但它们的影响很大程度上可以通过它们如何影响这四个核心因素来解释。专注于海鲜、瘦肉、鸡蛋、大豆、低脂乳制品和富含纤维的蔬菜,可以最大限度地提高饱腹感,并帮助你实现健康目标。像Hava这样的工具可以通过提供个性化建议来进一步简化这个过程。

我的妹夫六月去世了,心脏病发作。在医院抢救了四个小时就走了。然后账单来了。他保险到期两个月了。这里几千美元给心脏病专家,那里几千美元给急诊医生,放射科医生那边也有些。我帮妹夫的妻子协商降低了这些费用,但也不是巨额开销。然后医院的账单来了:19.5万美元。这就是这个故事。

## 侏罗纪喷气机队:为2025世界飞行赛打造747驾驶舱 一个名为“侏罗纪喷气机队”的团队正在加利福尼亚州圣何塞进行一项巨大的工程:从零开始建造一个完全可用的波音747-200驾驶舱,以便赶在2025世界飞行赛之前完成。 与市售的模拟器组件不同,他们正在采购并仔细重建所有部件——这项挑战源于对飞行模拟中真实性的热情。 世界飞行赛是一项为期一周的全球虚拟环球飞行比赛,旨在为慈善机构筹集资金,需要强烈的团队合作和模拟器操作。 侏罗纪喷气机队旨在带来独特的体验,选择经典的747的复杂性和三人机组动态,这与现代的双人飞行员设置不同。 他们的项目围绕着从前日本航空747-300上打捞到的驾驶舱展开,需要对数千根电线和模拟系统进行大量的逆向工程。 该团队由工程师、航空爱好者和X-Plane开发者(包括Shared Flight和Zero Dollar Payware场景等热门插件的创作者)组成,他们正在利用X-Plane的数据处理能力来连接真实的组件。 面对紧迫的截止日期和重大的后勤障碍,侏罗纪喷气机队不仅在建造模拟器,还在为国家肾脏基金会筹集资金。 他们的旅程将于2025年11月1日开始,将带来引人入胜的直播,以及对社区、真实性和“天空女王”持久魅力的庆祝。

## 747开发与飞行模拟热情 一篇关于在X-Plane飞行模拟器中构建747的故事引发了Hacker News的讨论,揭示了对这款标志性飞机的迷人见解以及飞行模拟爱好者的奉献精神。 一个关键点是,747的设计受到超音速旅行预期的影响,这导致了它作为货机的适应性。一个幽默的轶事表明,仅蓝图的重量就超过了飞机本身——这是航空航天领域长期存在的表达,突出了大量的文档。讨论还涉及波音公司在747开发期间对SST项目的关注,导致747团队资源较少,但仍然取得了显著的成功。 该帖子随后扩展到令人印象深刻的家庭飞行模拟器设置,从适度的升级到利用真实飞机硬件的完整驾驶舱。用户分享组件和资源的链接,包括悉尼一家便利店里一个完整的A320模拟器和德里机场模拟器。一位用户讲述了成本高昂但最终部分成功的飞机厨房餐车的转售尝试。

AirPods Pro 3 承诺在降噪、佩戴和音质方面有所改进,并增加了心率监测等健康功能。一位评测者在跨大西洋航班上测试了它们,这是之前 AirPods Pro 型号表现出色的场景。然而,体验因左侧 AirPod 出现的持续高音尖叫而受损。 这个问题源于高空飞行时耳塞密封性松动,从而产生降噪反馈回路。虽然最初不同的耳塞尺寸有所帮助,但问题在后续航班中仍然存在。研究表明,其他人也遇到了同样的问题,尤其是在航空旅行期间。 评测者怀疑更密集的泡沫耳塞会积聚热量并减少气流,从而导致压力变化下密封性失效。尽管喜欢 AirPods Pro 3 的整体质量,但这种特定于飞行的缺陷令人担忧。建议在飞行前购买,并在退货期内彻底测试它们在空中的表现,然后再决定购买。

这似乎是PDF文件的一部分,包含编码数据。直接翻译这些数据没有意义,因为它不是人类可读的文本。它是由PDF阅读器解码后才能显示为文本、图像或其他内容。

## 用户会验证 SSH 密钥吗? - Hacker News 讨论总结 最近 Hacker News 的讨论,源于一篇 2011 年的 USENIX 论文,质疑用户是否真的会验证 SSH 主机密钥。结论是:**通常不会。** 虽然从技术上来说这是可能的,并且对安全性至关重要,但由于用户体验障碍和感知到的低风险,验证很少被实践。 许多评论者分享了组织处理 SSH 密钥验证的经验,用于关键传输(如工资单),通常在失败时自动重试。 还有人强调了即使使用 DNS 欺骗,复杂的中间人攻击的可能性,以及安全带外密钥验证的难度。 有人提出了 SSH 证书(由受信任的 CA 签名)和改进的工具(例如由前一个密钥签名的自动密钥更新)等替代方案,但它们面临复杂性和用户采用方面的挑战。 许多人认为用户难以理解底层的密码学,并且很容易被这个过程压倒。 最终,讨论指出了一个根本的矛盾:SSH 的安全性依赖于用户的勤奋,但这个过程对于大多数人来说过于繁琐,无法持续遵循。 虽然“天空没有塌下来”,但缺乏验证会使系统容易受到攻击。

更多

联系我们 contact @ memedata.com