# 🧩 Summary ## 其他数据清洗技术 除了 MinHash,还有: - **困惑度过滤:** 用小模型筛选"太简单"或"太混乱"的文本 - **毒性检测:** 过滤暴力/色情/歧视内容 - **语言检测:** 确保数据是目标语言 - **质量评分:** 基于启发式规则打分 - [[MinHash]] = 快速找相似文本的算法,主要用于大规模去重! # 💡 Cues # Notes