# Summary
- 论文《Emergent Abilities of Large Language Models》(arXiv:2206.07682,2022):确认scaling能预测下游任务的性能提升,并在大型模型中涌现新能力。作者指出,这不是随机,而是scale-dependent(依赖规模)。
- 《Scaling Laws for Neural Language Models》(OpenAI, 2020):首次提出模型性能与参数、数据、算力的幂律关系,直接奠基了“堆算力”的策略。
- 其他调研:如CSET的解释(2024),涌现出现在模型大小、算力和数据scaling时;AssemblyAI的文章(2023)也强调cross-entropy loss的scaling law导致一致改进,最终涌现。
# Cues
# Notes
**涌现的本质**
- 可能是量变到质变:当参数足够多时,模型能够存储和组合足够复杂的模式
- 也可能是我们的评估方式问题:某些能力一直在线性提升,只是超过某个阈值后我们才"看到"它