# 🧩 Summary
场景:把“热帖→结构化可用知识”。
解决:
1. 质量与反垃圾:
1. 学习器:轻量文本分类器(fastText/小模型)打**广告/软广/水文**概率,低质降权或剔除。
2. 规则信号:含“合作/广告/团购/店铺推广”等词、外链比例异常、价格与大众点评/地图均值偏离过大。
2. 经典与实时:分类成经典贴和新鲜贴
3. 近重复与搬运清理(MinHash/SimHash/Embedding 三管齐下)
- **先 MinHash LSH** 粗过滤文本近重复(3~5 字符 shingle,200~400 个哈希;例如 **30 band × 15 行 ≈ 0.8** 触发阈);
- **再 SimHash** 捕捉轻度改写(64-bit,**Hamming ≤ 3**);
- **最后 Embedding** 补语义近义(cosine≥0.9),并交叉图片 **pHash**。
- **保留一条代表** + 将同簇其余设为“参考证据”,避免误删具有**互补信息**的帖子。
# 💡 Cues
# Notes
4. **解析与规范化**
- 文本:去表情、口水词、重复标点,保留实体短语;做**中文分词/短语块**(地名、商户名、别称)。
- 图片:若能跑 OCR/简单图像标注,从图片标题/水印中抽 POI 线索与时间(雪景=冬季)。
- 元数据:作者级别、互动量(赞/藏/评)、发布时间、话题标签、参考价格等。
5. **近重复与搬运清理(MinHash/SimHash/Embedding 三管齐下)**
- **MinHash + LSH(Jaccard)**:
- Shingle:**3~5 字符 n-gram**;
- 哈希函数数:**200~400**;
- LSH:例如 **30 个 band × 15 行**(≈450 维签名),近似门槛 ~ **0.8**;命中同 band 的视作候选重复;
- 适合抓**结构与词序相近**的重复。
- **SimHash(64-bit)**:设汉明半径 **≤3** 标记“高度相似”;对**小改动/同义改写**更敏感。
- **向量去重(Embedding)**:ANN(如 HNSW/IVF)找 **cosine≥0.9** 的样本,并结合标题/作者指纹做**规则 + 学习**融合判定。
- **图片 pHash**:过滤图像近重复“搬运图”。
- **保留策略**:同簇保留**交互量高 + 信息密度高 + 最近**的一条,其他作为“佐证材料”。
6. **质量与反垃圾**
- 规则信号:含“合作/广告/团购/店铺推广”等词、外链比例异常、价格与大众点评/地图均值偏离过大。
- 学习器:轻量文本分类器(fastText/小模型)打**广告/软广/水文**概率,低质降权或剔除。