Phi-3 技术报告
Phi-3 Technical Report

原始链接: https://arxiv.org/abs/2404.14219

本文介绍了 Phi-3 mini,这是一个由 Marah Abdin 及其合著者开发的紧凑型 38 亿参数语言模型。 该模型在包含 3.3 万亿个代币的大规模数据集上进行训练,在多轮度量学习理解 (MMLU) 和 Masked Token 基准等各种学术基准中达到了 Mixtral 8x7B 和 GPT-3.5 等大型模型所达到的高性能水平( MT 工作台)。 尽管由于其尺寸而能够在手机上有效运行,但新颖性来自于用于训练的高级数据集 - 之前在 Phi-2 中使用的数据集的升级版本。 这个增强的数据集由通过过滤和合成数据精心挑选的网络数据组成。 该团队还优化了模型的稳健性、安全性和聊天界面功能。 此外,他们还推出了名为 Phi-3-small(7B 参数)和 Phi-3-medium(14B 参数)的模型的较小版本,基于相同的评估指标,其性能优于 Phi-3-mini。 这些迭代显示出相对于 Phi-3-mini 的显着进步。

Llama3 是一种大型语言模型,展现出令人印象深刻的功能,但在冗长的上下文、重复或无法完成答案时遇到问题。 这些问题与量化无关,并且影响完整的 F16 8B 模型。 与基于基准的预期相比,Llama3 难以处理复杂的指令。 它的优势在于摘要、翻译和问答任务。 然而,尝试自我引导提问往往会导致捏造事实。 要有效地利用 Llama3,请重点关注这些应用领域,同时管理其发明细节的趋势,尤其是视频摘要中发言者的姓名。 尽管面临挑战,Llama3 与之前的型号相比仍然有显着的改进。 预计很快就会进行解决这些问题的升级。 虽然测试各种余弦学习率衰减方案产生了一致的结果,但在改变每个模型大小的训练令牌数量的实验中都取得了改进,反之亦然。 微调对于 Llama3 的最佳性能至关重要。 确定特定用例的优先级决定了其局限性或优势是否最适用。 与商业替代品相比,开源进展在基准分数方面明显滞后,但仍在快速进步。 合成内容可以创建大量数据集并提高效率,从而有可能减轻与版权侵权相关的担忧。 增强用户体验使公司在竞争中脱颖而出,确保持久的价值。 Llama3 具有广阔的潜力,但还需要进行重大改进以实现更广泛的适用性。
相关文章

原文

View a PDF of the paper titled Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone, by Marah Abdin and 86 other authors

View PDF HTML (experimental)
Abstract:We introduce phi-3-mini, a 3.8 billion parameter language model trained on 3.3 trillion tokens, whose overall performance, as measured by both academic benchmarks and internal testing, rivals that of models such as Mixtral 8x7B and GPT-3.5 (e.g., phi-3-mini achieves 69% on MMLU and 8.38 on MT-bench), despite being small enough to be deployed on a phone. The innovation lies entirely in our dataset for training, a scaled-up version of the one used for phi-2, composed of heavily filtered web data and synthetic data. The model is also further aligned for robustness, safety, and chat format. We also provide some initial parameter-scaling results with a 7B and 14B models trained for 4.8T tokens, called phi-3-small and phi-3-medium, both significantly more capable than phi-3-mini (e.g., respectively 75% and 78% on MMLU, and 8.7 and 8.9 on MT-bench).
From: Sebastien Bubeck [view email]
[v1] Mon, 22 Apr 2024 14:32:33 UTC (3,072 KB)
[v2] Tue, 23 Apr 2024 14:49:38 UTC (3,072 KB)
联系我们 contact @ memedata.com