」「ACC EM」「
**知识图谱的准确率=覆盖率**✖️**召回率**
> 我们去年做一个面向法律行业的合同审查产品。最初的方案很直接,就是把法条文本扔进向量数据库,做[[RAG]]。结果发现效果极差,模型经常胡说八道。后来复盘发现,法律文本的上下文关联性极强,简单的按段落切分会破坏语义。最后我们是怎么解决的?我们引入了知识图谱*,先把法条间的引用关系、依赖关系构建成图,检索时不仅做向量相似度检索,还做图游走,把相关的上下文节点一起找出来再喂给模型。你看,这个问题不深入到业务和技术细节里,你是根本想不到的。在这种中小厂的项目里,你就有机会去经历这种从“失败“到”解决”的全过程。
>
知识图谱为啥不行:
两段实习,工作内容都包含KG-RAG,回答一下 知识图谱+确实不行,有点学术圈自娱自乐 实际应用价值非常受限,不具备普适性 知识图谱限制非常多
1. 知识图谱难以迭代,比如我们给美国建立一个图谱,一开始是拜登-担任总统-美国,现在换成川普,关系是不是要改?如果改了拜登的知识如何处理?人工设置新的关系可行,但是有信息损失,而且不能大批量处理。
2. 知识图谱难以表达复杂逻辑关系,而且检索的时候会有损失。比如多步推理,如果不是cot*形式,而是图状的逻辑推理,那知识图谱就很难进行表示。其次,目前的知识图谱自动构建技术很难抽取出这种关系。
3. 知识图谱只适合关系明确的某些问题下的数据。比如我实习做的就是医疗大模型。症状,疾病,药品等实体关系是非常明确很好构建图谱的,而且图谱的知识不会有太多变化。但如果你要做一些关系不明确的数据的知识图谱呢?比如根据物理课本or语文课本构建知识图谱,你又要怎么设计图谱,如何设计检索模型or策略呢?
4. 图是一种非常复杂的数据结构,节点和边的数目不一定是线性增长的。1w 节点可能有3w边,10w节点可能就是80w边。其次,图谱数据量太大会影响时间开销。如果用知识图谱推理模型,比如 transe*,你会发现准确率不一定高于20%。