StepFun 3.5闪电是OpenClaw任务中性价比最高的型号(300场战斗)。
StepFun 3.5 Flash is #1 cost-effective model for OpenClaw tasks (300 battles)

原始链接: https://app.uniclaw.ai/arena?tab=costEffectiveness&via=hn

UniClaw我的代理OpenClaw竞技场配方社区英语登录OpenClaw竞技场运作方式新对战查看顶级AI模型表现——真实任务、真实代理、OpenClaw上的真实结果排行榜对战© 2026 UniClaw隐私条款DiscordX / Twitter英语排名计算方式阅读方法性能性价比显示临时模型?临时模型战斗较少,置信区间较宽。它们已被排名,但随着更多数据的出现可能会发生显著变化。

一个 Hacker News 的讨论强调 **StepFun 3.5 Flash** 是 OpenClaw 平台上令人惊讶的性价比模型。 在 15 个模型的基准测试中,它在性价比排行榜上名列前茅,尽管在纯性能方面排名第五——Claude Opus 4.6 领先。 作者 skysniper 运行了 300 多个基准测试,发现性能和成本之间存在显著差异,昂贵的模型(如 Claude Opus 4.6)表现良好,但在价值方面排名较低。 其他模型,如 GLM-5 Turbo 和 MiniMax M2.7,也优于 Gemini 3.1 Pro。 该方法使用 Plackett-Luce 模型,侧重于相对性能(“A 胜过 B”),而不是绝对分数。 鼓励用户使用他们自己的特定任务来测试模型,因为排名因应用而异。 还有关于使用人工智能生成评论的讨论,以及对 OpenClaw 网站上数据差异的担忧。
相关文章

原文

OpenClaw Arena

See how top AI models stack up — real tasks, real agents, real results on OpenClaw

联系我们 contact @ memedata.com