# 🧩 Summary 场景:把“热帖→结构化可用知识”。 解决: 1. 质量与反垃圾: 1. 学习器:轻量文本分类器(fastText/小模型)打广告/软广/水文概率,低质降权或剔除。 2. 规则信号:含“合作/广告/团购/店铺推广”等词、外链比例异常、价格与大众点评/地图均值偏离过大。 2. 经典与实时:分类成经典贴和新鲜贴 3. 近重复与搬运清理(MinHash/SimHash/Embedding 三管齐下) - 先 MinHash LSH 粗过滤文本近重复(3~5 字符 shingle,200~400 个哈希;例如 30 band × 15 行 ≈ 0.8 触发阈); - 再 SimHash 捕捉轻度改写(64-bit,Hamming ≤ 3); - 最后 Embedding 补语义近义(cosine≥0.9),并交叉图片 pHash。 - 保留一条代表 + 将同簇其余设为“参考证据”,避免误删具有互补信息的帖子。 # 💡 Cues # Notes 4. 解析与规范化 - 文本:去表情、口水词、重复标点,保留实体短语;做中文分词/短语块(地名、商户名、别称)。 - 图片:若能跑 OCR/简单图像标注,从图片标题/水印中抽 POI 线索与时间(雪景=冬季)。 - 元数据:作者级别、互动量(赞/藏/评)、发布时间、话题标签、参考价格等。 5. 近重复与搬运清理(MinHash/SimHash/Embedding 三管齐下) - MinHash + LSH(Jaccard): - Shingle:3~5 字符 n-gram; - 哈希函数数:200~400; - LSH:例如 30 个 band × 15 行(≈450 维签名),近似门槛 ~ 0.8;命中同 band 的视作候选重复; - 适合抓结构与词序相近的重复。 - SimHash(64-bit):设汉明半径 ≤3 标记“高度相似”;对小改动/同义改写更敏感。 - 向量去重(Embedding):ANN(如 HNSW/IVF)找 cosine≥0.9 的样本,并结合标题/作者指纹做规则 + 学习融合判定。 - 图片 pHash:过滤图像近重复“搬运图”。 - 保留策略:同簇保留交互量高 + 信息密度高 + 最近的一条,其他作为“佐证材料”。 6. 质量与反垃圾 - 规则信号:含“合作/广告/团购/店铺推广”等词、外链比例异常、价格与大众点评/地图均值偏离过大。 - 学习器:轻量文本分类器(fastText/小模型)打广告/软广/水文概率,低质降权或剔除。