# Summary
| | | |
| ----------------------------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------- | ----------------------------- |
| [A2 Systems](A2%20Systems.md) | 1. [[Triton]] 实现 [[FlashAttention]]<br>2. 多机 NCCL Pipeline [分布式数据并行 DDP](分布式数据并行%20DDP.md)+ [优化器状态分片技术](优化器状态分片技术.md)。 | 建好 NVTX/ Nsight Profiling 流程 |
| [A3 Scaling](A3%20Scaling.md) | 调参 + 调用训练 API 拟合 Scaling Law 使用 IsoFLOP 拟合 Scaling Law。为了模拟训练运行的高风险,学生会获得一个训练 API[超参数→损失]和一个固定的计算预算,并且必须选择提交哪些运行来收集数据点。在后台,训练 API 是通过在一系列预先计算的运行之间进行插值来支持的。 | 先读 OpenAI 2020 Scaling Law 论文 |
| [A4 Data](A4%20Data.md) | 从 Common Crawl 原始档抽取‑去重‑过滤 将 Common Crawl HTML 转换为文本,过滤(质量、有害内容、PII),删除重复数据。这是一项苦差事,却没有得到足够的重视。 | 学 `warc` 解析、Bloom Filter 去重 |
# Notes
## 一、数据 + 模型 + 算力
[[Transformer]]、[[分布式训练策略]]
|数据源|规模|质量|成本|适用场景|
|---|---|---|---|---|
|**Common Crawl**|极大|中等(需清洗)|免费|LLM 预训练|
|**Wikipedia**|中等|高|免费|知识密集型任务|
|**Reddit/Twitter**|大|较低|部分免费|对话/社交文本|
|**Books Corpus**|中等|高|有版权限制|长文本理解|
|**自己爬取**|可控|可控|高(技术+法律成本)|特定领域|
几乎所有主流 LLM 都使用 Common Crawl 数据:
| 模型 | 使用的数据集 | 基于 Common Crawl |
| --------- | ---------------------------------- | --------------- |
| **GPT-3** | WebText | ✅ |
| **T5** | C4 (Colossal Clean Crawled Corpus) | ✅ |
| **BERT** | BooksCorpus + [[Wikipedia]] | 部分 ✅ |
| **LLaMA** | [[Common Crawl]] + 其他 | ✅ |
| **GPT-4** | 未公开,但很可能包含 | ✅ |
## 二、数据处理
[[数据清洗]] + [[数据去重]] + [[分词]] + 分片 + 验证
| | | |
| -------- | --------------------------------------------------------------- | -------------------------------------------- |
| | | **原理** |
| HTML 转文本 | [[HTML]] 中提取文本 | HTML 解析库 [[resiliparse]].`extract.html2text` |
| 文本过滤 | [[自然语言处理 NLP]]中的[[文本分类]]中的语言识别任务 | [[FastText]] |
| | - 隐私保护:训练数据中不包含真实邮箱<br>- 数据清洗:识别并标记敏感信息<br>- 标准化处理:统一替换格式便于后续处理 | [[正则表达式]] |
| | 高低质量分类 | 基于规则的文本分类<br>哪类关键词出现次数更多,就归为哪类 |
| | [[NSFW]]检测 | [[FastText]] |
| 去重 | 精确重复 | 行内容的 [[SHA‑256]](不碰撞哈希)计数表([[哈希]]表),|
| | 模糊重复 | [[minHash]] + [[LSH]] |
| 分词 | | `tiktoken`‑like BPE |
| 分片 | 每个分片包含固定数量的 token 或字符 | 分成 60 个 10GB 的 `.bin` 文件 |
| 验证 | | |
## 三、实际应用
1. 识别小红书帖子是中文 [[FastText]]
2. [[resiliparse]]
