# Summary # Cues # Notes ## 粗召回阶段 粗召回的目标是从海量数据中快速筛选出相关候选集,通常召回数百到数千个结果。 **常用方法:** 1. **[[倒排索引]]检索** - 基于关键词匹配,使用TF-IDF、BM25等算法 - 支持布尔查询、短语查询等 - 速度极快,适合处理海量数据 2. **[[向量检索]]** - 使用预训练的embedding模型(如BERT、Word2Vec)将查询和文档编码为向量 - 通过近似最近邻搜索(ANN)快速找到相似文档 - 常用索引:HNSW、IVF、LSH等 - 能捕捉语义相似性 3. **[多路召回](多路召回.md)策略** - 同时使用多种召回方法(关键词、向量、协同过滤等) - 每路召回不同数量的候选 - 最后合并去重 4. **缓存和预计算** - 对热门查询进行缓存 - 预计算常见查询的结果集