超越 vLLM 的生成式推理堆栈

超越 vLLM 的生成式推理堆栈
Surpassing vLLM with a Generated Inference Stack

原始链接: https://infinity.inc/case-studies/qwen3-optimization

(Empty input provided. There is nothing to translate.)

## 新推理堆栈声称性能提升 Hacker News上的一篇文章详细介绍了一种新的推理堆栈（“infinity.inc”），声称其性能超越了vLLM。开发者表示，他们的堆栈通过专门针对单个模型进行优化，从而实现了这一目标。然而，评论者对此表示怀疑，质疑其基准测试方法。一位用户指出缺乏通过相同的输出token概率进行验证，暗示其实现可能与vLLM不同。另一些人批评缺少推测解码，这是一种关键的性能优化手段。开发者承认推测解码将同样使两个系统受益，并且愿意进行进一步测试。他们表示目前使用MMLU和Hellaswag基准进行验证，并且正在进行独立验证。虽然正在考虑开源部分推理库，但尚未做出决定。目前缺乏关于代码、批处理和量化的更详细信息。

超越 vLLM 的生成式推理堆栈 Surpassing vLLM with a Generated Inference Stack

超越 vLLM 的生成式推理堆栈
Surpassing vLLM with a Generated Inference Stack