## 人工智能推理:令人惊讶的洗车测试
最近的测试揭示了人工智能推理方面的显著弱点,即使是领先的模型如GPT-5.1和Claude Sonnet 4.5也存在。 “洗车测试”——简单地询问是步行还是开车50米*去洗车行洗车*——总是让人工智能出错。
在测试的53个模型中,令人震惊的是42个最初回答“步行”,专注于短距离而不是将*汽车*送到洗车行的核心要求。 只有11个模型最初答对了,并且一致性证明更具挑战性;只有5个(Claude Opus 4.6、Gemini 2.0 Flash Lite、Gemini 3 Flash、Gemini 3 Pro和Grok-4)在10次尝试中都能可靠地正确回答。
有趣的是,人类的表现(71.5%正确)超过了大多数人工智能,与GPT-5的可靠性相符。 该测试凸显了一个关键的“可靠性问题”——许多模型*有时*可以正确推理,但在生产中却会不可预测地失败。 这表明人工智能通常优先考虑学习到的启发式方法(如“短距离=步行”)而不是上下文推理。
虽然上下文工程——提供结构化示例——可以提高性能,但洗车测试强调了在广泛应用于复杂应用之前,人工智能需要更强大和一致的推理能力。
## 突破性进展提升无阳极锂离子电池性能
哥伦比亚大学的研究人员开发出一种新型凝胶电解质,有望克服无阳极锂离子电池技术中的关键挑战。这种电池通过消除阳极来提高能量密度,但此前由于不均匀的锂沉积形成有害的枝晶,导致安全问题和寿命有限。
这种新型凝胶电解质利用独特的聚合物网络,它排斥锂离子,同时吸引溶剂,形成保护层以防止枝晶形成。实验室测试表明,该电解质在实际条件下仍能保持80%以上的容量,并显著提高热稳定性——降低电动汽车在加热/冷却方面的能量消耗。重要的是,它经受住了严格的测试,没有发生热失控,这与传统的液体电解质不同。
这项创新有望提供更安全、更持久、能量密度更高的电动汽车电池,*无需*像固态电池那样的高昂成本。专家认为,像这种凝胶电解质一样,对锂离子技术的持续改进对于更广泛地采用电动汽车至关重要,因为它可以在可承受的价格范围内提供更长的续航里程和更快的充电速度。