基于知识图谱集成的大语言模型向量检索方法技术

技术编号：40362226 阅读：9 留言：0更新日期：2024-02-09 14:49

本发明专利技术涉及数据处理技术领域，具体涉及基于知识图谱集成的大语言模型向量检索方法，包括：采集文本数据集构建知识图谱，获取实体集合中每个实体的名词序列和编号序列，从而得到每个实体的属性特征值，以此将所有实体划分的若干个聚类簇，根据所有聚类簇中所有实体的属性特征值之间的差异，得到TransE模型的修正损失函数，从而得到三元组集合中的每个三元组的向量表示，由此获取用户查询时的查询结果。本发明专利技术通过分析实体集合中实体之间的相似性，对TransE模型的损失函数进行修正，获取准确的向量表示结果，从而提高了用户查询时的检索准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，具体涉及基于知识图谱集成的大语言模型向量检索方法。

技术介绍

1、在大语言模型应用中,向量检索是一种重要的技术。向量检索是指将文本描述转换为数值向量,然后利用这些向量进行相似度计算,从而实现文本的检索。向量检索方法在自然语言处理领域中的应用场景非常广泛,如文本搜索、信息推荐、文本分类等。基于知识图谱的向量检索方法是一种结合了知识图谱和向量检索技术的方法。知识图谱是一种用于表示实体及其关系的图形化结构,可以存储大量的结构化和半结构化知识。向量检索方法则可以利用这些实体及其关系来提高文本检索的准确性和召回率。

2、现有的问题：在基于知识图谱进行向量检索之前，首先要对知识图谱进行向量化表示。当前常使用transe算法进行知识图谱向量化表示，该算法通过学习实体和关系向量空间中的表示，然后通过计算这些向量之间的相似性来确定三元组的有效性。但是该算法在计算过程中没有考虑实体间的相似性，当两个实体之间存在相似性时，会导致大语言模型无法准确区分相似的实体，降低了大语言模型的性能，从而降低了检索的准确性。

技术实现思路

1、本专利技术提供基于知识图谱集成的大语言模型向量检索方法，以解决现有的问题。

2、本专利技术的基于知识图谱集成的大语言模型向量检索方法采用如下技术方案：

3、本专利技术一个实施例提供了基于知识图谱集成的大语言模型向量检索方法，该方法包括以下步骤：

4、采集一个文本数据集，构建知识图谱；所述知识图谱包含一个实体集合和一个三元组集合；

5、将知识图谱的实体集合中的任意一个实体，记为目标实体；使用网络爬虫技术，得到目标实体的词语介绍词条；在实体集合中，对所有实体的词语介绍词条进行切分和编号，得到每个实体的名词序列和编号序列；

6、将实体集合中不是目标实体的实体，记为分实体；根据目标实体和每个分实体的名词序列中存在的同义词，得到目标实体和每个分实体的名词相关性；

7、根据目标实体和每个分实体的名词相关性、编号序列之间的关系，得到目标实体和每个分实体的属性相关性；将目标实体分别和所有分实体的属性相关性的均值，记为目标实体的属性特征值；

8、根据实体集合中所有实体的属性特征值，得到所有实体划分的若干个聚类簇；根据所有聚类簇中所有实体的属性特征值之间的差异，得到实体集合中的类内平均距离和类间平均距离；

9、根据实体集合中的类内平均距离和类间平均距离、transe模型的损失函数，得到知识图谱的三元组集合中的每个三元组的向量表示；采集用户查询时的输入语句，在三元组集合中的所有三元组的向量表示中，使用大语言模型向量检索方法对所述输入语句进行检索，得到响应的查询结果。

10、进一步地，所述采集一个文本数据集，构建知识图谱，包括的具体步骤如下：

11、使用jieba分词工具，将所述文本数据集切分成若干个词语；

12、根据文本数据集切分的所有词语，构建知识图谱。

13、进一步地，所述在实体集合中，对所有实体的词语介绍词条进行切分和编号，得到每个实体的名词序列和编号序列，包括的具体步骤如下：

14、使用jieba分词工具，将目标实体的词语介绍词条切分成若干个词语；

15、使用nltk方法，依次提取目标实体的词语介绍词条切分的所有词语中的名词，得到目标实体的名词序列；

16、在实体集合中，依次对所有实体的名词序列中的所有名词，进行从1开始的加1递增的编号，得到每个实体的名词序列的编号序列；所述加1递增的编号的过程中，当每种相同的名词重复出现时，不进行加1递增的编号，而是将每种相同的所有名词的编号，都记为每种相同的名词第一次出现时的编号。

17、进一步地，所述根据目标实体和每个分实体的名词序列中存在的同义词，得到目标实体和每个分实体的名词相关性，包括的具体步骤如下：

18、将任意一个分实体，记为参考实体；将参考实体的名词序列，记为参考名词序列；将参考名词序列中的名词，记为参考名词；

19、将目标实体的名词序列，记为目标名词序列；

20、使用基于同义词词林的算法，判断每个参考名词是否在目标名词序列中存在同义词，将在目标名词序列中存在同义词的参考名词，记为同义名词；

21、根据参考名词序列中所有同义名词的序数值、参考名词和同义名词的数量，得到目标实体和参考实体的名词相关性。

22、进一步地，所述根据参考名词序列中所有同义名词的序数值、参考名词和同义名词的数量，得到目标实体和参考实体的名词相关性对应的具体计算公式为：

23、

24、其中为目标实体和参考实体的名词相关性，为参考名词序列中参考名词的数量，为参考名词序列中同义名词的数量，为参考名词序列中第d个同义名词的序数值，为参考名词序列中第d+1个同义名词的序数值。

25、进一步地，所述根据目标实体和每个分实体的名词相关性、编号序列之间的关系，得到目标实体和每个分实体的属性相关性对应的具体计算公式为：

26、

27、其中为目标实体和参考实体的属性相关性，为目标实体和参考实体的名词相关性，m为目标实体的编号序列，为参考实体的编号序列，为m和的余弦相似度，为线性归一化函数。

28、进一步地，所述根据实体集合中所有实体的属性特征值，得到所有实体划分的若干个聚类簇，包括的具体步骤如下：

29、在实体集合中，将任意两个实体的属性特征值的差值的绝对值，记为所述任意两个实体的聚类距离；

30、根据实体集合中所有实体的聚类距离，使用isodata聚类方法，将所有实体划分为若干个聚类簇。

31、进一步地，所述根据所有聚类簇中所有实体的属性特征值之间的差异，得到实体集合中的类内平均距离和类间平均距离，包括的具体步骤如下：

32、在每个聚类簇中，将所有实体的属性特征值的均值，记为每个聚类簇的属性中心值；

33、根据所有聚类簇中所有实体的属性特征值与属性中心值的差异，得到实体集合中的类内平均距离；

34、在所有聚类簇中，计算任意两个聚类簇的属性中心值的差值的绝对值，将所有聚类簇的属性中心值的差值的绝对值的均值，记为实体集合中的类间平均距离。

35、进一步地，所述根据所有聚类簇中所有实体的属性特征值与属性中心值的差异，得到实体集合中的类内平均距离对应的具体计算公式为：

36、

37、其中l为实体集合中的类内平均距离，t为聚类簇的数量，为第t个聚类簇中的实体数量，为第t个聚类簇中第v个实体的属性特征值，为第t个聚类簇的属性中心值，| |为绝对值函数。

38、进一步地，所述根据实体集合中的类内平均距离和类间平均距离、transe模型的损失函数，得到知识图谱的三元组集合中的每个三元组的向量表示，包括的具体步骤如下：

39、将实体集合中的类内平均距离与类间平均距离本文档来自技高网...

【技术保护点】

1.基于知识图谱集成的大语言模型向量检索方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述基于知识图谱集成的大语言模型向量检索方法，其特征在于，所述采集一个文本数据集，构建知识图谱，包括的具体步骤如下：

3.根据权利要求1所述基于知识图谱集成的大语言模型向量检索方法，其特征在于，所述在实体集合中，对所有实体的词语介绍词条进行切分和编号，得到每个实体的名词序列和编号序列，包括的具体步骤如下：

4.根据权利要求1所述基于知识图谱集成的大语言模型向量检索方法，其特征在于，所述根据目标实体和每个分实体的名词序列中存在的同义词，得到目标实体和每个分实体的名词相关性，包括的具体步骤如下：

5.根据权利要求4所述基于知识图谱集成的大语言模型向量检索方法，其特征在于，所述根据参考名词序列中所有同义名词的序数值、参考名词和同义名词的数量，得到目标实体和参考实体的名词相关性对应的具体计算公式为：

6.根据权利要求4所述基于知识图谱集成的大语言模型向量检索方法，其特征在于，所述根据目标实体和每个分实体的名词相关性、编号序列之间的关

7.根据权利要求1所述基于知识图谱集成的大语言模型向量检索方法，其特征在于，所述根据实体集合中所有实体的属性特征值，得到所有实体划分的若干个聚类簇，包括的具体步骤如下：

8.根据权利要求1所述基于知识图谱集成的大语言模型向量检索方法，其特征在于，所述根据所有聚类簇中所有实体的属性特征值之间的差异，得到实体集合中的类内平均距离和类间平均距离，包括的具体步骤如下：

9.根据权利要求8所述基于知识图谱集成的大语言模型向量检索方法，其特征在于，所述根据所有聚类簇中所有实体的属性特征值与属性中心值的差异，得到实体集合中的类内平均距离对应的具体计算公式为：

10.根据权利要求1所述基于知识图谱集成的大语言模型向量检索方法，其特征在于，所述根据实体集合中的类内平均距离和类间平均距离、TransE模型的损失函数，得到知识图谱的三元组集合中的每个三元组的向量表示，包括的具体步骤如下：

...

【技术特征摘要】

1.基于知识图谱集成的大语言模型向量检索方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述基于知识图谱集成的大语言模型向量检索方法，其特征在于，所述采集一个文本数据集，构建知识图谱，包括的具体步骤如下：

6.根据权利要求4所述基于知识图谱集成的大语言模型向量检索方法，其特征在于，所述根...

【专利技术属性】
技术研发人员：屠静，王亚，赵策，苏岳，万晶晶，李伟伟，颉彬，周勤民，
申请(专利权)人：卓世科技海南有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人