(评论)
(comments)
原始链接: https://news.ycombinator.com/item?id=43879702
Hacker News上的一篇讨论围绕着在苹果的神经引擎(ANE)上运行大型语言模型(LLM)。原帖作者质疑为什么苹果的MLX和llama.cpp没有完全支持ANE,尽管它有可能提高速度和内存效率。
用户们讨论了ANE对于现代量化LLM的局限性,指出它专注于FP16/INT8运算,并且可能存在内存带宽瓶颈。虽然ANE可以改进提示预处理并降低功耗,但由于其“宽度”限制,其吞吐量可能不如GPU。
讨论涵盖了ANE的实际应用案例,例如与GPU密集型任务一起进行图像分类。一些用户声称M3 Ultra在LLM推理方面优于高端Nvidia GPU,而另一些用户则对此表示异议。Mac上的统一内存允许运行超过Nvidia消费级显卡内存限制的更大模型。然而,苹果对ANE访问的严格控制受到了批评。文中提到了其他替代方案,例如AMD的Strix Halo,它也具有统一内存,但也面临限制。AneMll在M4 Max上的实际优势得到了体现,虽然令牌生成速度较慢,但内存使用量显著减少。
They claim their ANE-optimized models achieve "up to 10 times faster and 14 times lower peak memory consumption compared to baseline implementations."
AFAIK, neither MLX nor llama.cpp support ANE. Though llama.cpp started exploring this idea [0].
What's weird is that MLX is made by Apple and yet, they can't support ANE given its closed-source API! [1]
[0]: https://github.com/ggml-org/llama.cpp/issues/10453
[1]: https://github.com/ml-explore/mlx/issues/18#issuecomment-184...
reply