Deepseek v3 和 llama-like 的模型有很大的区别,infra 层做了很多优化。但是 infra 厂商不一定会愿意
llama-like 是 dense decoder,大部分显卡适配这种
Deepseek 是 MOE,对硬件厂商来说有点冒险,在买模型彩票,让专用的芯片过度绑定于特定模型而不是通用模型的话
满血版需要 4台八卡h100
https://github.com/huggingface/open-r1
这个 **open-r1** 项目是 **DeepSeek-R1** 的一个完全开源的复现版本。其目标是**重现并构建 DeepSeek-R1 训练管线的缺失部分**,以便所有人都可以复现并在其基础上进行构建和优化。
[[监督微调 SFT]]