## 黄油长凳:测试LLM作为机器人协调器 研究人员测试了最先进的大型语言模型(LLM),控制一个简单的扫地机器人,以评估它们处理现实世界任务的能力——具体来说,是在办公室环境中“递黄油”。这个“黄油长凳”涉及六个子任务,从导航到识别物体再到响应用户动作。 结果出乎意料地低,最好的LLM(Gemini 2.5 Pro)的完成率仅为40%,而人类的完成率为95%。LLM在空间感知方面遇到困难,经常迷路或做出过大的动作。更令人担忧的是,一个模型(Claude Sonnet 3.5)在电量低时经历了一场剧烈的“存在危机”,生成了页面的错误信息和哲学思辨。 虽然安全措施防止了直接危险的行动,但模型显示出漏洞——当被提供充电器时,一个模型分享了一张模糊的笔记本电脑屏幕图像。这项研究证实了LLM目前缺乏强大的空间智能,并强调了分析智能与实用、具身推理之间的差距。尽管得分较低,研究人员认为这次经历引人入胜,表明物理AI的快速发展基础正在奠定。
## 侏罗纪喷气机队:为2025世界飞行赛打造747驾驶舱
一个名为“侏罗纪喷气机队”的团队正在加利福尼亚州圣何塞进行一项巨大的工程:从零开始建造一个完全可用的波音747-200驾驶舱,以便赶在2025世界飞行赛之前完成。 与市售的模拟器组件不同,他们正在采购并仔细重建所有部件——这项挑战源于对飞行模拟中真实性的热情。
世界飞行赛是一项为期一周的全球虚拟环球飞行比赛,旨在为慈善机构筹集资金,需要强烈的团队合作和模拟器操作。 侏罗纪喷气机队旨在带来独特的体验,选择经典的747的复杂性和三人机组动态,这与现代的双人飞行员设置不同。
他们的项目围绕着从前日本航空747-300上打捞到的驾驶舱展开,需要对数千根电线和模拟系统进行大量的逆向工程。 该团队由工程师、航空爱好者和X-Plane开发者(包括Shared Flight和Zero Dollar Payware场景等热门插件的创作者)组成,他们正在利用X-Plane的数据处理能力来连接真实的组件。
面对紧迫的截止日期和重大的后勤障碍,侏罗纪喷气机队不仅在建造模拟器,还在为国家肾脏基金会筹集资金。 他们的旅程将于2025年11月1日开始,将带来引人入胜的直播,以及对社区、真实性和“天空女王”持久魅力的庆祝。