在 llm.c 中复制 GPT-2
Reproducing GPT-2 in llm.c

原始链接: https://github.com/karpathy/llm.c/discussions/481

👍 1 个对竖起大拇指的表情符号做出反应 👎 1 个对大拇指朝下的表情符号做出反应 😄 1 个对大笑表情符号作出反应 🎉 1 个对万岁表情符号作出反应 😕 1 个对困惑的表情符号作出反应 ❤️ 1 个对心形表情符号做出反应 🚀 1 个对火箭表情符号作出反应 👀 1 个对眼睛表情符号作出反应

该用户正在比较两种语言建模方法:一种使用 PyTorch 或 JAX 以及名为 nanoGPT 的特定模型,另一种使用名为 llm.c 的 C/CUDA 代码。 前者尚未完全优化,但后者目前运行速度稍快。 然而,用户打算改进这两种方法,旨在建立一个用于教育目的的最小的、独立的存储库。 用户的最终目标是探索可以从蛋白质结构预测中删除多少内容,同时通过 LLM.c 保持其通用性,专注于教育他人而不需要广泛的依赖性或复杂性。 他们并不特别关心性能增强或药物发现,只是展示了根据现有蛋白质数据库数据预测新结构的能力。 LLM.c 结合了对 GPT-2 架构的多项修改,包括位置编码替换、某些偏差的删除、非线性的使用、增加上下文长度以及对架构参数的调整。 还有研究表明,足够长的训练可以减少这些模型之间的差异。
相关文章

原文

联系我们 contact @ memedata.com