# 🧩 Summary
场景:把“热帖→结构化可用知识”。
解决:
1. 质量与反垃圾:
1. 学习器:轻量文本分类器(fastText/小模型)打广告/软广/水文概率,低质降权或剔除。
2. 规则信号:含“合作/广告/团购/店铺推广”等词、外链比例异常、价格与大众点评/地图均值偏离过大。
2. 经典与实时:分类成经典贴和新鲜贴
3. 近重复与搬运清理(MinHash/SimHash/Embedding 三管齐下)
- 先 MinHash LSH 粗过滤文本近重复(3~5 字符 shingle,200~400 个哈希;例如 30 band × 15 行 ≈ 0.8 触发阈);
- 再 SimHash 捕捉轻度改写(64-bit,Hamming ≤ 3);
- 最后 Embedding 补语义近义(cosine≥0.9),并交叉图片 pHash。
- 保留一条代表 + 将同簇其余设为“参考证据”,避免误删具有互补信息的帖子。
# 💡 Cues
# Notes
4. 解析与规范化
- 文本:去表情、口水词、重复标点,保留实体短语;做中文分词/短语块(地名、商户名、别称)。
- 图片:若能跑 OCR/简单图像标注,从图片标题/水印中抽 POI 线索与时间(雪景=冬季)。
- 元数据:作者级别、互动量(赞/藏/评)、发布时间、话题标签、参考价格等。
5. 近重复与搬运清理(MinHash/SimHash/Embedding 三管齐下)
- MinHash + LSH(Jaccard):
- Shingle:3~5 字符 n-gram;
- 哈希函数数:200~400;
- LSH:例如 30 个 band × 15 行(≈450 维签名),近似门槛 ~ 0.8;命中同 band 的视作候选重复;
- 适合抓结构与词序相近的重复。
- SimHash(64-bit):设汉明半径 ≤3 标记“高度相似”;对小改动/同义改写更敏感。
- 向量去重(Embedding):ANN(如 HNSW/IVF)找 cosine≥0.9 的样本,并结合标题/作者指纹做规则 + 学习融合判定。
- 图片 pHash:过滤图像近重复“搬运图”。
- 保留策略:同簇保留交互量高 + 信息密度高 + 最近的一条,其他作为“佐证材料”。
6. 质量与反垃圾
- 规则信号:含“合作/广告/团购/店铺推广”等词、外链比例异常、价格与大众点评/地图均值偏离过大。
- 学习器:轻量文本分类器(fastText/小模型)打广告/软广/水文概率,低质降权或剔除。