知识图谱生成方法及电子设备技术

技术编号:37102057 阅读:11 留言:0更新日期:2023-04-01 05:02
本发明专利技术是关于一种知识图谱生成方法及电子设备,涉及知识图谱技术领域,本发明专利技术包括:确定形成知识图谱所需的文本数据,并确定所述文本数据中的多个词语对应的词向量;根据多个词语对应的词向量,得到多个待测词组;其中,每个待测词组是从表示实体的词语对应的词向量中选择的词向量,和从表示关系的词语对应的词向量中选择的词向量组成的;针对每个待测词组,若根据所述待测词组中表示实体的词语对应的损失值之和确定的词语关联性评估值在第一预设范围内,则保留所述待测词组的词向量;采用保留的词向量进行知识抽取,生成知识图谱。本发明专利技术提供了通过词语关联性评估值高的待测词组的词向量保留,进行知识抽取,提高了抽取结果的准确性。果的准确性。果的准确性。

【技术实现步骤摘要】
知识图谱生成方法及电子设备


[0001]本专利技术涉及知识图谱
,尤其涉及一种知识图谱生成方法及电子设备。

技术介绍

[0002]知识图谱用可视化技术描述知识资源及其载体、挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱多应用于智能领域。例如,智能问答、智能推荐、智能决策等人机交互方面。应用于智能领域时,更多的是利用知识图谱内的知识的相关性。创建知识图谱时,会先将中文的数据转换为向量表示,然后在进行知识抽取,再组成知识图谱。
[0003]知识抽取涉及的关键技术包括实体抽取、关系抽取和属性抽取。例如知识抽取会形成三元组,也就是抽取实体

关系

实体的三元组,然而对于将中文的数据转换为向量表示后,向量表示的词语并未全部是实体或者关系,会有大量无用的词语,例如“与”“的”等介词,这些词语会导致知识抽取时抽取到的有联系的组合存在歧义、重复、非正常配对等异常情况。

技术实现思路

[0004]本专利技术提供一种知识图谱生成方法及电子设备,在得到词向量后,通过对待测词语的关联性进行判断,将具有一定关联性的待测词组的词向量保留,构建知识图谱,相比于在得到词向量直接进行知识提取的方式来说,提高了抽取结果的准确性。
[0005]第一方面,本专利技术实施例提供的一种知识图谱生成方法,包括:
[0006]确定形成知识图谱所需的文本数据,并确定所述文本数据中的多个词语对应的词向量;
[0007]根据多个词语对应的词向量,得到多个待测词组;其中,每个待测词组是从表示实体的词语对应的词向量中选择的词向量,和从表示关系的词语对应的词向量中选择的词向量组成的;
[0008]针对每个待测词组,若根据所述待测词组中表示实体的词语对应的损失值之和确定的词语关联性评估值在第一预设范围内,则保留所述待测词组的词向量;其中,表示实体的每个词语对应的损失值是参考词向量和所述待测词组中的表示实体的其他词语对应的词向量确定的,所述参考词向量是根据该词语对应的词向量和所述待测词组中表示关系的词语对应的词向量确定的;
[0009]采用保留的词向量进行知识抽取,生成知识图谱。
[0010]上述方法,在确定形成知识图谱所需的文本数据中的多个词语对应的词向量后,将表示实体的词语对应的词向量和表示关系的词语对应的词向量组成待测词组,针对每个表示实体的词语,确定表示实体的词语和表示关系的词语确定其他表示实体的词语的参考词向量,再根据其他表示实体的词语的参考词向量和待测词组中其他表示实体的词语确定损失值,根据待测词组中表示实体的词语对应的损失值之和确定的词语关联性评估值在第一预设范围内,也说明待测词组中的词语具有关联性,也就是比较像多元组,将该待测词组
保留,这样在根据保留下来的词语对应的词向量进行知识抽取,生成知识图谱,相比于在得到词向量直接进行知识提取的方式来说,提高了抽取结果的准确性。
[0011]在一种可能的实现方式中,根据多个词语对应的词向量,得到多个待测词组之前,所述方法还包括:
[0012]针对每个词语,将从知识库中查找到与所述词语含义相同的目标词语对应的词向量,替换所述词语对应的词向量;其中,所述知识库中的每个词向量均具有所述词向量所在多元组的正则约束。
[0013]上述方法,能够先采用具有所在多元组的正则约束的词向量进行相同含义的词语的词向量替换,从而使得进行下一步得词向量具有多元组的正则约束,更有利于提高知识抽取过程的结果精确度,实用性更好。
[0014]在一种可能的实现方式中,通过以下方式确定知识库中的词向量:
[0015]获取多个三元组对应的词向量;
[0016]将每个三元组对应的词向量输入到三元组约束模型中,得到具有三元组的正则约束的每个三元组对应的词向量。
[0017]上述方法,能够通过三元组约束模型调整三元组对应的词向量,从而使得词向量具有三元组的正则约束,从而为知识抽取提供具有三元组的正则约束的词向量,提高了知识抽取的准确率。
[0018]在一种可能的实现方式中,所述方法还包括:
[0019]若根据所述待测词组中表示实体的词语对应的损失值之和确定的词语关联性评估值在第二预设范围内,则从所述文本数据中的多个词语对应词向量删除所述待测词组中的词向量,并针对剔除的所述待测词组中的每个词向量,根据所述词向量对应的词语在所述文本数据中的上下文的词语对应的词向量,更新所述待测词组的词向量,用于与其他文本数据的词语对应的词向量形成知识图谱;其中,所述第二预设范围的最大值小于所述第一预设范围的最小值。
[0020]上述方法,能够在根据待测词组中表示实体的词语对应的损失值之和确定的词语关联性评估值在第二预设范围内,即待测词组内的词语的关联性不强时,可以从文本数据中的多个词语对应词向量删除所述待测词组中的词向量,即不采用该待测词组中的词向量本次构成知识图谱,同时更新待测词组的词向量,用于与其他文本数据的词语对应的词向量形成知识图谱,提高了词向量的利用率。
[0021]在一种可能的实现方式中,所述方法还包括:
[0022]若根据所述待测词组中表示实体的词语对应的损失值之和确定的词语关联性评估值在第三预设范围内,则从所述文本数据中的多个词语对应词向量删除所述待测词组中的词向量;所述第三预设范围的最大值小于所述第二预设范围的最小值。
[0023]上述方法,能够在词语关联性评估值在第三预设范围内时,说明待测词组内的词语的关联性很弱,则直接剔除,避免关联性比较弱的词语进入知识提取的步骤,提高了知识提取的准确率。
[0024]第二方面,本专利技术实施例提供的一种电子设备,包括:获取单元和处理器;
[0025]所述获取单元,用于获取形成知识图谱所需的文本数据;
[0026]所述处理器,用于确定所述文本数据中的多个词语对应的词向量;
[0027]根据多个词语对应的词向量,得到多个待测词组;其中,每个待测词组是从表示实体的词语对应的词向量中选择的词向量,和从表示关系的词语对应的词向量中选择的词向量组成的;
[0028]针对每个待测词组,若根据所述待测词组中表示实体的词语对应的损失值之和确定的词语关联性评估值在第一预设范围内,则保留所述待测词组的词向量;其中,表示实体的每个词语对应的损失值是参考词向量和所述待测词组中的表示实体的其他词语对应的词向量确定的,所述参考词向量是根据该词语对应的词向量和所述待测词组中表示关系的词语对应的词向量确定的;
[0029]采用保留的词向量进行知识抽取,生成知识图谱。
[0030]在一种可能的实现方式中,所述处理器,还用于:
[0031]针对每个词语,将从知识库中查找到与所述词语含义相同的目标词语对应的词向量,替换所述词语对应的词向量;其中,所述知识库中的每个词向量均具有所述词向量所在多元组的正则约束。
[0032]在一种可能的实现方式中,所述处理器,具体用于:
[0033]获取多个三元组对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱生成方法,其特征在于,包括:确定形成知识图谱所需的文本数据,并确定所述文本数据中的多个词语对应的词向量;根据多个词语对应的词向量,得到多个待测词组;其中,每个待测词组是从表示实体的词语对应的词向量中选择的词向量,和从表示关系的词语对应的词向量中选择的词向量组成的;针对每个待测词组,若根据所述待测词组中表示实体的词语对应的损失值之和确定的词语关联性评估值在第一预设范围内,则保留所述待测词组的词向量;其中,表示实体的每个词语对应的损失值是参考词向量和所述待测词组中的表示实体的其他词语对应的词向量确定的,所述参考词向量是根据该词语对应的词向量和所述待测词组中表示关系的词语对应的词向量确定的;采用保留的词向量进行知识抽取,生成知识图谱。2.根据权利要求1所述的知识图谱生成方法,其特征在于,根据多个词语对应的词向量,得到多个待测词组之前,所述方法还包括:针对每个词语,将从知识库中查找到与所述词语含义相同的目标词语对应的词向量,替换所述词语对应的词向量;其中,所述知识库中的每个词向量均具有所述词向量所在多元组的正则约束。3.根据权利要求2所述的知识图谱生成方法,其特征在于,通过以下方式确定知识库中的词向量:获取多个三元组对应的词向量;将每个三元组对应的词向量输入到三元组约束模型中,得到具有三元组的正则约束的每个三元组对应的词向量。4.根据权利要求1所述的知识图谱生成方法,其特征在于,所述方法还包括:若根据所述待测词组中表示实体的词语对应的损失值之和确定的词语关联性评估值在第二预设范围内,则从所述文本数据中的多个词语对应词向量删除所述待测词组中的词向量,并针对剔除的所述待测词组中的每个词向量,根据所述词向量对应的词语在所述文本数据中的上下文的词语对应的词向量,更新所述待测词组的词向量,用于与其他文本数据的词语对应的词向量形成知识图谱;其中,所述第二预设范围的最大值小于所述第一预设范围的最小值。5.根据权利要求1~4任一项所述的知识图谱生成方法,其特征在于,所述方法还包括:若根据所述待测词组中表示实体的词语对应的损失值之和确定的词语关联性评估值在第三预设范围内,则从所述文本数据中的多个词语对应词向量删除所述待测词组中的词向量;所述第三预设范围的最大值小于所述第二预设范围的最小...

【专利技术属性】
技术研发人员:赵峂李浩汪铎陈维强孙永良李建伟
申请(专利权)人:青岛国创智慧云脑科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1