并行计算 - 🎯转了码的刘公子

# Summary 根据Kaplan et al. (2020)的scaling laws，性能提升是可预测的：算力每翻倍，损失函数（error）下降固定比例。Transformer的并行性让这种scaling经济可行——训练时间从月级降到天级。 # Cues [batch](batch.md) # Notes