在 llm.c 中复制 GPT-2

在 llm.c 中复制 GPT-2
Reproducing GPT-2 in llm.c

原始链接: https://github.com/karpathy/llm.c/discussions/481

👍 1 个对竖起大拇指的表情符号做出反应 👎 1 个对大拇指朝下的表情符号做出反应 😄 1 个对大笑表情符号作出反应 🎉 1 个对万岁表情符号作出反应 😕 1 个对困惑的表情符号作出反应 ❤️ 1 个对心形表情符号做出反应 🚀 1 个对火箭表情符号作出反应 👀 1 个对眼睛表情符号作出反应

该用户正在比较两种语言建模方法：一种使用 PyTorch 或 JAX 以及名为 nanoGPT 的特定模型，另一种使用名为 llm.c 的 C/CUDA 代码。前者尚未完全优化，但后者目前运行速度稍快。然而，用户打算改进这两种方法，旨在建立一个用于教育目的的最小的、独立的存储库。用户的最终目标是探索可以从蛋白质结构预测中删除多少内容，同时通过 LLM.c 保持其通用性，专注于教育他人而不需要广泛的依赖性或复杂性。他们并不特别关心性能增强或药物发现，只是展示了根据现有蛋白质数据库数据预测新结构的能力。 LLM.c 结合了对 GPT-2 架构的多项修改，包括位置编码替换、某些偏差的删除、非线性的使用、增加上下文长度以及对架构参数的调整。还有研究表明，足够长的训练可以减少这些模型之间的差异。

在 llm.c 中复制 GPT-2 Reproducing GPT-2 in llm.c

在 llm.c 中复制 GPT-2
Reproducing GPT-2 in llm.c