# 💡 Summary
1. [[词袋模型]]:[[TF-IDF]] 和[[BM25]],缺点是 term 顺序和上下文无关的
•中文分词:将查询词、文档切成多个字符串。•查询词:q=“好莱坞电影推荐” •分词得到:Q={好莱坞,电影,推荐}•Q中的词在文档d中出现次数越多,则q与d越可能相关。•[[TF-IDF]] 和[[BM25]]都是基于上述想法。
•TF-IDF 和BM25隐含了词袋模型假设:只考虑词频,不考虑词的顺序和上下文。•词袋模型忽略词序和上下文,不利于准确计算相关性。•前深度学习时代有很多词袋模型,例如 Latent Semantic Analysis (LSA) • Latent Dirichlet Allocation (LDA) •
# 🧩 Cues
# 🪞Notes