老规矩,先抛出一个 motivating questions:用 1024 个 [H100](https://zhida.zhihu.com/search?content_id=260269863&content_type=Article&match_order=1&q=H100&zhida_source=entity) 在 15T tokens 上训练一个 70B 的模型需要多长时间? 总共的 flops 是 6 * 70e9 * 15e12,H100 每秒计算 flop 是 1979e12 / 2,假设 mfu(Model FLOPs Utilization)为 0.5,那每天需要计算的 flops 为 h100_flop_per_sec * mfu * 1024 * 60 * 60 * 24,总共大概需要 144 天。 [[Tensor]] [[Triton]]