# Summary | | | | | ----------------------------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------- | ----------------------------- | | [A2 Systems](A2%20Systems.md) | 1. [[Triton]] 实现 [[FlashAttention]]<br>2. 多机 NCCL Pipeline [分布式数据并行 DDP](分布式数据并行%20DDP.md)+ [优化器状态分片技术](优化器状态分片技术.md)。 | 建好 NVTX/ Nsight Profiling 流程 | | [A3 Scaling](A3%20Scaling.md) | 调参 + 调用训练 API 拟合 Scaling Law 使用 IsoFLOP 拟合 Scaling Law。为了模拟训练运行的高风险,学生会获得一个训练 API[超参数→损失]和一个固定的计算预算,并且必须选择提交哪些运行来收集数据点。在后台,训练 API 是通过在一系列预先计算的运行之间进行插值来支持的。 | 先读 OpenAI 2020 Scaling Law 论文 | | [A4 Data](A4%20Data.md) | 从 Common Crawl 原始档抽取‑去重‑过滤 将 Common Crawl HTML 转换为文本,过滤(质量、有害内容、PII),删除重复数据。这是一项苦差事,却没有得到足够的重视。 | 学 `warc` 解析、Bloom Filter 去重 | # Notes ## 一、数据 + 模型 + 算力 [[Transformer]]、[[分布式训练策略]] |数据源|规模|质量|成本|适用场景| |---|---|---|---|---| |**Common Crawl**|极大|中等(需清洗)|免费|LLM 预训练| |**Wikipedia**|中等|高|免费|知识密集型任务| |**Reddit/Twitter**|大|较低|部分免费|对话/社交文本| |**Books Corpus**|中等|高|有版权限制|长文本理解| |**自己爬取**|可控|可控|高(技术+法律成本)|特定领域| 几乎所有主流 LLM 都使用 Common Crawl 数据: | 模型 | 使用的数据集 | 基于 Common Crawl | | --------- | ---------------------------------- | --------------- | | **GPT-3** | WebText | ✅ | | **T5** | C4 (Colossal Clean Crawled Corpus) | ✅ | | **BERT** | BooksCorpus + [[Wikipedia]] | 部分 ✅ | | **LLaMA** | [[Common Crawl]] + 其他 | ✅ | | **GPT-4** | 未公开,但很可能包含 | ✅ | ## 二、数据处理 [[数据清洗]] + [[数据去重]] + [[分词]] + 分片 + 验证 | | | | | -------- | --------------------------------------------------------------- | -------------------------------------------- | | | | **原理** | | HTML 转文本 | [[HTML]] 中提取文本 | HTML 解析库 [[resiliparse]].`extract.html2text` | | 文本过滤 | [[自然语言处理 NLP]]中的[[文本分类]]中的语言识别任务 | [[FastText]] | | | - 隐私保护:训练数据中不包含真实邮箱<br>- 数据清洗:识别并标记敏感信息<br>- 标准化处理:统一替换格式便于后续处理 | [[正则表达式]] | | | 高低质量分类 | 基于规则的文本分类<br>哪类关键词出现次数更多,就归为哪类 | | | [[NSFW]]检测 | [[FastText]] | | 去重 | 精确重复 | 行内容的 [[SHA‑256]](不碰撞哈希)计数表([[哈希]]表),| | | 模糊重复 | [[minHash]] + [[LSH]] | | 分词 | | `tiktoken`‑like BPE | | 分片 | 每个分片包含固定数量的 token 或字符 | 分成 60 个 10GB 的 `.bin` 文件 | | 验证 | | | ## 三、实际应用 1. 识别小红书帖子是中文 [[FastText]] 2. [[resiliparse]] ![image.png|1000](https://imagehosting4picgo.oss-cn-beijing.aliyuncs.com/imagehosting/fix-dir%2Fpicgo%2Fpicgo-clipboard-images%2F2025%2F11%2F01%2F16-12-23-66822fa379a691574271718b92c65f47-202511011612268-8197f9.png)