HippoRAG 本质是通过模拟人类海马体记忆机制,以 “知识图谱 + 个性化 PageRank 算法” 突破传统 RAG 局限,其实现核心是 “先构建结构化知识、再进行关联检索”,而非依赖额外小 Transformer 模型。
知识图谱构建(离线阶段):并非简单存储文本,而是用 LLM(如 GPT 系列)作为 “知识提取器”,从原始文本中拆解出实体(如 “奥本海默”)和关系(如 “主导”) ,形成 “实体 - 关系 - 实体” 的三元组(如 “奥本海默 - 主导 - 曼哈顿计划”),最终织成知识图谱。
- 关键突破:通过 “同义词边”(如 “苹果公司” 与 “Apple Inc.”)连接语义相似实体,解决传统 RAG 的 “语义孤岛” 问题,让分散概念产生关联。
关联检索推理(在线阶段):面对用户查询时,不直接匹配文本关键词,而是:
- 先定位查询在知识图谱中的 “种子节点”(如查询 “诺兰邻居导演” 时,种子节点为 “诺兰”);
- 再用个性化 PageRank 算法在图谱中 “随机游走”,顺着关系链跨节点联想(如 “诺兰→居住街道→邻居→导演→奥斯卡获奖者”),实现多跳推理;
- 最后筛选出关联度最高的知识片段,输入 LLM 生成答案。
不依赖。其核心组件(知识提取、图谱构建、PageRank 推理)均基于现有 LLM 和图算法实现:
- 知识提取:用主 LLM(而非小模型)完成,确保实体与关系的识别精度;
- 图谱检索:依托成熟的图计算框架(如 Neo4j)优化 PageRank 算法,而非重新设计 Transformer 结构。
我可以帮你整理一份 HippoRAG 与传统 RAG 的核心差异对比表,清晰呈现两者在技术路径、推理能力和适用场景上的区别,需要吗?