# Summary 根据Kaplan et al. (2020)的scaling laws,性能提升是可预测的:算力每翻倍,损失函数(error)下降固定比例。Transformer的并行性让这种scaling经济可行——训练时间从月级降到天级。 # Cues [batch](batch.md) # Notes