四渡赤水-数据清洗 - 🎯转了码的刘公子

# 🧩 Summary 场景：把“热帖→结构化可用知识”。解决： 1. 质量与反垃圾： 1. 学习器：轻量文本分类器（fastText/小模型）打**广告/软广/水文**概率，低质降权或剔除。 2. 规则信号：含“合作/广告/团购/店铺推广”等词、外链比例异常、价格与大众点评/地图均值偏离过大。 2. 经典与实时：分类成经典贴和新鲜贴 3. 近重复与搬运清理（MinHash/SimHash/Embedding 三管齐下） - **先 MinHash LSH** 粗过滤文本近重复（3~5 字符 shingle，200~400 个哈希；例如 **30 band × 15 行 ≈ 0.8** 触发阈）； - **再 SimHash** 捕捉轻度改写（64-bit，**Hamming ≤ 3**）； - **最后 Embedding** 补语义近义（cosine≥0.9），并交叉图片 **pHash**。 - **保留一条代表** + 将同簇其余设为“参考证据”，避免误删具有**互补信息**的帖子。 # 💡 Cues # Notes 4. **解析与规范化** - 文本：去表情、口水词、重复标点，保留实体短语；做**中文分词/短语块**（地名、商户名、别称）。 - 图片：若能跑 OCR/简单图像标注，从图片标题/水印中抽 POI 线索与时间（雪景=冬季）。 - 元数据：作者级别、互动量（赞/藏/评）、发布时间、话题标签、参考价格等。 5. **近重复与搬运清理（MinHash/SimHash/Embedding 三管齐下）** - **MinHash + LSH（Jaccard）**： - Shingle：**3~5 字符 n-gram**； - 哈希函数数：**200~400**； - LSH：例如 **30 个 band × 15 行**（≈450 维签名），近似门槛 ~ **0.8**；命中同 band 的视作候选重复； - 适合抓**结构与词序相近**的重复。 - **SimHash（64-bit）**：设汉明半径 **≤3** 标记“高度相似”；对**小改动/同义改写**更敏感。 - **向量去重（Embedding）**：ANN（如 HNSW/IVF）找 **cosine≥0.9** 的样本，并结合标题/作者指纹做**规则 + 学习**融合判定。 - **图片 pHash**：过滤图像近重复“搬运图”。 - **保留策略**：同簇保留**交互量高 + 信息密度高 + 最近**的一条，其他作为“佐证材料”。 6. **质量与反垃圾** - 规则信号：含“合作/广告/团购/店铺推广”等词、外链比例异常、价格与大众点评/地图均值偏离过大。 - 学习器：轻量文本分类器（fastText/小模型）打**广告/软广/水文**概率，低质降权或剔除。