知识图谱 - 𓀚 转了码的刘公子

」「ACC EM」「 **知识图谱的准确率=覆盖率**✖️**召回率** > 我们去年做一个面向法律行业的合同审查产品。最初的方案很直接，就是把法条文本扔进向量数据库，做[[RAG]]。结果发现效果极差，模型经常胡说八道。后来复盘发现，法律文本的上下文关联性极强，简单的按段落切分会破坏语义。最后我们是怎么解决的？我们引入了知识图谱*，先把法条间的引用关系、依赖关系构建成图，检索时不仅做向量相似度检索，还做图游走，把相关的上下文节点一起找出来再喂给模型。你看，这个问题不深入到业务和技术细节里，你是根本想不到的。在这种中小厂的项目里，你就有机会去经历这种从“失败“到”解决”的全过程。 > 知识图谱为啥不行：两段实习，工作内容都包含KG-RAG，回答一下知识图谱+确实不行，有点学术圈自娱自乐实际应用价值非常受限，不具备普适性知识图谱限制非常多 1. 知识图谱难以迭代，比如我们给美国建立一个图谱，一开始是拜登-担任总统-美国，现在换成川普，关系是不是要改？如果改了拜登的知识如何处理？人工设置新的关系可行，但是有信息损失，而且不能大批量处理。 2. 知识图谱难以表达复杂逻辑关系，而且检索的时候会有损失。比如多步推理，如果不是cot*形式，而是图状的逻辑推理，那知识图谱就很难进行表示。其次，目前的知识图谱自动构建技术很难抽取出这种关系。 3. 知识图谱只适合关系明确的某些问题下的数据。比如我实习做的就是医疗大模型。症状，疾病，药品等实体关系是非常明确很好构建图谱的，而且图谱的知识不会有太多变化。但如果你要做一些关系不明确的数据的知识图谱呢？比如根据物理课本or语文课本构建知识图谱，你又要怎么设计图谱，如何设计检索模型or策略呢？ 4. 图是一种非常复杂的数据结构，节点和边的数目不一定是线性增长的。1w 节点可能有3w边，10w节点可能就是80w边。其次，图谱数据量太大会影响时间开销。如果用知识图谱推理模型，比如 transe*，你会发现准确率不一定高于20%。