## Palantir & Alex Karp: 摘要 由 CEO Alex Karp 领导的 Palantir,正日益被视为全球科技领域中一个关键且可能令人担忧的力量。Karp 大胆宣称 Palantir 是“世界上最重要的软件公司”,其在国防、情报、医疗保健和执法等领域的广泛影响力支持了这一说法。 该公司强大的 AI 驱动的数据分析工具被美国移民及海关执法局、五角大楼、以色列国防军,甚至英国国民医疗服务体系等机构使用,引发了对大规模监控和潜在滥用的担忧——这让人联想到奥威尔的《1984》。Karp 本人也是一个独特而古怪的人物,以其非传统风格和对 Palantir 的强硬辩护而闻名。 一本最近的传记揭示了 Karp 复杂的动机,源于对社会崩溃的恐惧以及“捍卫西方”的愿望,即使他对“西方”的定义已经发生了演变。尽管最初对特朗普等人物持批评态度,但 Palantir 越来越倾向于保守的政治议程。 尽管存在争议,Palantir 坚持认为它只是提供软件来*利用*数据,而不是收集数据,并认为其技术可以成为一股向善的力量。然而,其日益增长的统治地位和 Karp 雄心勃勃的愿景预示着一个潜在的变革性且令人不安的未来。
## 关于AI产品评估的争论:评估(Evals) vs. 监控
Raindrop,一个用于监控AI代理性能的平台,挑战了日益重视“评估”(标准化的AI测试)作为产品优化的主要方法,这一观点最近由Braintrust CEO Ankur 倡导。虽然承认评估对于防止性能下降的价值,Raindrop认为它们不足以理解*真实世界*中的表现,尤其是在日益复杂的AI代理中。
核心争论在于,在AI快速发展的环境中,模型经常更新且代理行为难以预测,监控生产数据(本质上是A/B测试)能提供更真实的信息。评估通常基于预定义的失败案例,难以发现未预见的问题并适应个性化的用户体验。
Raindrop专注于检测“信号”——例如代理卡住或提供不正确响应等异常情况——直接在生产环境中,从而实现更快的迭代和更清晰地了解变化对用户的影响。他们强调软件开发向快速部署和监控转变,这反映了从CD-ROM到持续网络更新的演变。最终,Raindrop认为AI产品优化的未来在于观察AI在实际环境中的表现,而不仅仅是它在预设测试中的得分。