# 🧩 Summary 场景:把“热帖→结构化可用知识”。 解决: 1. 质量与反垃圾: 1. 学习器:轻量文本分类器(fastText/小模型)打**广告/软广/水文**概率,低质降权或剔除。 2. 规则信号:含“合作/广告/团购/店铺推广”等词、外链比例异常、价格与大众点评/地图均值偏离过大。 2. 经典与实时:分类成经典贴和新鲜贴 3. 近重复与搬运清理(MinHash/SimHash/Embedding 三管齐下) - **先 MinHash LSH** 粗过滤文本近重复(3~5 字符 shingle,200~400 个哈希;例如 **30 band × 15 行 ≈ 0.8** 触发阈); - **再 SimHash** 捕捉轻度改写(64-bit,**Hamming ≤ 3**); - **最后 Embedding** 补语义近义(cosine≥0.9),并交叉图片 **pHash**。 - **保留一条代表** + 将同簇其余设为“参考证据”,避免误删具有**互补信息**的帖子。 # 💡 Cues # Notes 4. **解析与规范化** - 文本:去表情、口水词、重复标点,保留实体短语;做**中文分词/短语块**(地名、商户名、别称)。 - 图片:若能跑 OCR/简单图像标注,从图片标题/水印中抽 POI 线索与时间(雪景=冬季)。 - 元数据:作者级别、互动量(赞/藏/评)、发布时间、话题标签、参考价格等。 5. **近重复与搬运清理(MinHash/SimHash/Embedding 三管齐下)** - **MinHash + LSH(Jaccard)**: - Shingle:**3~5 字符 n-gram**; - 哈希函数数:**200~400**; - LSH:例如 **30 个 band × 15 行**(≈450 维签名),近似门槛 ~ **0.8**;命中同 band 的视作候选重复; - 适合抓**结构与词序相近**的重复。 - **SimHash(64-bit)**:设汉明半径 **≤3** 标记“高度相似”;对**小改动/同义改写**更敏感。 - **向量去重(Embedding)**:ANN(如 HNSW/IVF)找 **cosine≥0.9** 的样本,并结合标题/作者指纹做**规则 + 学习**融合判定。 - **图片 pHash**:过滤图像近重复“搬运图”。 - **保留策略**:同簇保留**交互量高 + 信息密度高 + 最近**的一条,其他作为“佐证材料”。 6. **质量与反垃圾** - 规则信号:含“合作/广告/团购/店铺推广”等词、外链比例异常、价格与大众点评/地图均值偏离过大。 - 学习器:轻量文本分类器(fastText/小模型)打**广告/软广/水文**概率,低质降权或剔除。