DeepSeek - 🎯转了码的刘公子

Deepseek v3 和 llama-like 的模型有很大的区别，infra 层做了很多优化。但是 infra 厂商不一定会愿意 llama-like 是 dense decoder，大部分显卡适配这种 Deepseek 是 MOE，对硬件厂商来说有点冒险，在买模型彩票，让专用的芯片过度绑定于特定模型而不是通用模型的话满血版需要 4台八卡h100 https://github.com/huggingface/open-r1 这个 **open-r1** 项目是 **DeepSeek-R1** 的一个完全开源的复现版本。其目标是**重现并构建 DeepSeek-R1 训练管线的缺失部分**，以便所有人都可以复现并在其基础上进行构建和优化。 [[监督微调 SFT]]