makeMoE:从零开始打造一个稀疏混合专家语言模型 [译]
本文将带您一步步实现一个稀疏混合专家语言模型。这个项目受到了 Andrej Karpathy 的 'makemore' 项目的启发,并在很大程度上基于它,借鉴了许多可重用的组件。与 'makemore' 类似,'makeMoE' 也是一种自回归的字符级语言模型,但它采用了所谓的稀疏混合专家架构。文章的后续部分将详细介绍这种架构的关键要素及其实现方式。我希望您通过阅读本文并实践代码,能对整个系统的工作原理有一个直观的了解。
January 30, 2024
View Article