GPT-OSS 120B 在 Cerebras 上以每秒 3000 个 token 的速度运行。
GPT-OSS 120B Runs at 3000 tokens/sec on Cerebras

原始链接: https://www.cerebras.ai/blog/openai-gpt-oss-120b-runs-fastest-on-cerebras

## OpenAI 的 GPT OSS 120B 现已在 Cerebras 上可用 OpenAI 首个开放权重的推理模型 GPT OSS 120B 现已在 Cerebras 上可用,提供显著的性能提升。该 1200 亿参数模型在编码、数学和健康查询等任务的准确性方面可与 OpenAI 的 o4-mini 相媲美,但速度更快。 在 Cerebras 推理云上,OSS 120B 可达到高达每秒 3,000 个 token 的速度——比领先的 GPU 云快 15 倍,将推理任务的完成时间从分钟缩短到秒。Artificial Analysis 的独立测试证实,Cerebras 提供了最佳的速度和延迟,首次 token 响应时间低于一秒,并且具有一流的准确性。 Cerebras 的定价为每百万输入 token 0.25 美元,每百万输出 token 0.69 美元,提供具有竞争力的性价比优势,与中位 GPU 云相比,每美元提供的 token 数量多 8.4 倍。GPT OSS 120B 可通过 Cerebras Cloud、HuggingFace、OpenRouter 和 Vercel 访问。

## Cerebras GPT-OSS 120B 性能与用户反馈 一则 Hacker News 讨论集中在 GPT-OSS 120B 模型在 Cerebras 硬件上令人印象深刻的速度,达到每秒 3000 个 token。用户强调其在快速的基于代理的应用和多工具回合中的潜力。 然而,一个反复出现的问题是,Cerebras 和类似平台(如 Groq)要求用户在尝试使用服务*之后*创建账户——这被认为是一种令人沮丧的“黑暗模式”。关于在免费(但有补贴)访问的情况下,注册是否合理,引发了争论。 一些评论员指出 Cerebras 遭受了巨大的财务损失,并且依赖于资金,特别是来自阿布扎比等来源。虽然硬件昂贵,但有些人认为优化的加速最终可能降低推理成本。尽管对盈利能力存在担忧,用户仍然赞赏通过 OpenRouter 等平台的速度和相对较低的成本,表明如果出现替代方案,转换成本较低。
相关文章

原文

OpenAI’sGPT OSS 120B model is now available on Cerebras. The first open weight reasoning model by OpenAI, OSS 120B delivers model accuracy that rivals o4-mini while running at up to 3,000 tokens per second on the Cerebras Inference Cloud. Reasoning tasks that take up to a minute to complete on GPUs finish in just one second on Cerebras. OSS 120B is available today with 131K context at $0.25 per M input tokens and $0.69 per M output tokens.

GPTOSS120B is a 120 billion parameter mixture-of-expert model that delivers near parity performance with OpenAI’s popular o4mini on core reasoning benchmarks. It excels at chain of thought tasks, tackling coding, mathematical reasoning, and health related queries with class leading accuracy and efficiency. With its public weights release under Apache 2.0, it offers transparency, finetuning flexibility, and the ability to run on the Cerebras Wafer Scale Engine in the cloud and on-prem.

Cerebras is proud to offer launch-day support for OSS 120B. On OpenRouter, Cerebras was measured at 3,045 token/s– 15x faster than the leading GPU cloud. Artificial Analysis found that Cerebras offered the best combination of speed and latency, with time to first token of just 280 milliseconds and output speed of 2,700 tokens/s.