实体关系图构建方法、装置、设备及存储介质制造方法及图纸

技术编号:38812558 阅读:10 留言:0更新日期:2023-09-15 19:51
本发明专利技术涉及信息检索技术领域,揭露了一种实体关系图构建方法,包括:对待处理文本进行实体识别及同类合并操作,得到标准文本实体集;对待处理文本进行语法结构分析,确定任意两个标准文本实体之间是否存在语法依赖关系,将标准文本实体作为节点,并生成存在语法依赖关系的节点之间的连接边,得到语法关系图;选择语法关系图中的连接边相连的节点作为目标相连节点并做向量转换,得到文本向量,根据文本向量预测目标相连节点之间的文本实体关系;根据标准文本实体和文本实体关系构建知识图谱,得到待处理文本对应的实体关系图。本发明专利技术还提出实体关系图构建装置、电子设备以及存储介质。本发明专利技术可以提高文本实体关系图的准确性。性。性。

【技术实现步骤摘要】
实体关系图构建方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种实体关系图构建方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着信息技术的不断发展,各种网页、社交媒体等在线内容也愈发蓬勃发展,如何从海量的非结构文本数据中获取知识并总结成图像信息了当下亟需解决的问题。
[0003]现有的知识获取方法一般都是传统的信息检索方法,根据用户提供的检索词从文本信息中获取与检索内容相关的文本,总结成的图像资料也多是一个个扁平的文档视图,无法发掘文本中的实体以及实体之间的关系,对用户来说作用寥寥,此种情况下,抽取文本信息中的文本实体,并借此构建实体关系图的需求应运而生。

技术实现思路

[0004]本专利技术提供一种实体关系图构建方法、装置及计算机可读存储介质,其主要目的提高文本实体关系图的准确性。
[0005]为实现上述目的,本专利技术提供的一种实体关系图构建方法,包括:
[0006]获取待处理文本,对所述待处理文本进行实体识别,得到初始文本实体集,对所述初始文本实体集中的文本实体进行同类合并操作,得到标准文本实体集;
[0007]对所述待处理文本进行语法结构分析,确定所述标准文本实体集合中的任意两个标准文本实体之间是否存在语法依赖关系,将所述标准文本实体集中的每个标准文本实体作为一个节点,并生成存在语法依赖关系的节点之间的连接边,得到所述待处理文本对应的语法关系图;
[0008]依次选择所述语法关系图中的一条连接边相连的两个节点作为目标相连节点,对所述目标相连节点做向量转换,得到所述目标相连节点对应的文本向量,根据所述文本向量及预设的实体关系标签列表预测所述目标相连节点之间的文本实体关系;
[0009]根据所述标准文本实体和所述文本实体关系构建知识图谱,得到所述待处理文本对应的实体关系图。
[0010]可选地,所述对所述初始文本实体集中的文本实体进行同类合并操作,得到标准文本实体集,包括:
[0011]对所述初始文本实体集的初始文本实体进行指代分类,得到所述初始文本实体集中的具有指代特征的指代实体和非指代实体;
[0012]获取每个所述指代实体在所述待处理文本中的上下文信息;
[0013]根据所述上下文信息计算每个所述指代实体与所述初始文本实体集中的任一非指代实体之间的关联度;
[0014]将满足预设合并条件的关联度对应的非指代实体替换所述指代实体,得到所述标准文本实体集。
[0015]可选地,所述根据所述标准文本实体和所述文本实体关系构建知识图谱,得到所述待处理文本对应的实体关系图,包括:
[0016]根据所述标准文本实体和所述文本实体关系构建三元组数据;
[0017]将所述三元组数据作为知识图谱数据存储入预设的图数据库中,并通过所述待处理文本对所述三元组数据进行数据补全,得到标准三元组数据;
[0018]基于所述预设的图数据库,通过所述标准三元组数据构建知识图谱,得到所述标准文本实体的实体关系图。
[0019]可选地,所述对所述待处理文本进行实体识别,包括:
[0020]对所述待处理文本进行分词,得到分词集合;
[0021]从预设的语法字典中查找所述分词集合中每个分词对应的词性集;
[0022]获取每个所述分词在所述待处理文本中的上下文语义信息,从所述词性集中筛选符合所述上下文语义信息的词性,作为对应分词的词性;
[0023]根据预设的词性与实体映射关系,确定与实体存在映射关系的词性作为目标词性;
[0024]将所述目标词性对应的分词作为所述待处理文本的初始文本实体,汇集所有所述初始文本实体,得到所述初始文本实体集。
[0025]可选地,所述根据所述文本向量及预设的实体关系标签列表预测所述目标相连节点之间的文本实体关系,包括:
[0026]利用预设的激活函数对所述文本向量进行计算,以获取所述文本向量和所述预设的实体关系标签列表中各个实体关系标签之间的概率值,
[0027]选取所述概率值最大的实体关系标签作为所述目标相连节点之间的文本实体关系。
[0028]可选地,所述利用预设的激活函数对所述文本向量进行计算,以获取所述文本向量和所述预设的实体关系标签列表中各个实体关系标签之间的概率值,包括:
[0029]利用下述激活函数对所述文本向量进行计算:
[0030][0031]其中,p(a|x)为文本向量x和实体关系标签a之间的相对概率,w
a
为实体关系标签a的权重向量,T为求转置运算符号,exp为求期望运算符号,A为实体关系标签列表中实体关系标签的数量。
[0032]可选地,所述图数据库为存储知识图谱数据的Neo4j图数据库。
[0033]为了解决上述问题,本专利技术还提供一种实体关系图构建装置,所述装置包括:
[0034]文本实体识别模块,用于获取待处理文本,对所述待处理文本进行实体识别,得到初始文本实体集,对所述初始文本实体集中的文本实体进行同类合并操作,得到标准文本实体集;
[0035]语法关系图构建模块,用于对所述待处理文本进行语法结构分析,确定所述标准文本实体集合中的任意两个标准文本实体之间是否存在语法依赖关系,将所述标准文本实体集中的每个标准文本实体作为一个节点,并生成存在语法依赖关系的节点之间的连接
边,得到所述待处理文本对应的语法关系图;
[0036]实体关系预测模块,用于依次选择所述语法关系图中的一条连接边相连的两个节点作为目标相连节点,对所述目标相连节点做向量转换,得到所述目标相连节点对应的文本向量,根据所述文本向量及预设的实体关系标签列表预测所述目标相连节点之间的文本实体关系;
[0037]实体关系图构建模块,用于根据所述标准文本实体和所述文本实体关系构建知识图谱,得到所述待处理文本对应的实体关系图。
[0038]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0039]至少一个处理器;以及,
[0040]与所述至少一个处理器通信连接的存储器;其中,
[0041]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的实体关系图构建方法。
[0042]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的实体关系图构建方法。
[0043]本专利技术实施例通过对待处理文本中获取实体进行同类合并消除相同的实体,避免同一实体在构建的实体关系图中重复出现,影响实体关系图的准确性,以及先生成标准文本实体之间的语法关系图,再根据标准文本实体之间的语法关系图查找实体与实体之间的关系,使得实体与实体之间的实体关系更为形象,有益于查找标准文本实体之间的实体关系。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体关系图构建方法,其特征在于,所述方法包括:获取待处理文本,对所述待处理文本进行实体识别,得到初始文本实体集,对所述初始文本实体集中的文本实体进行同类合并操作,得到标准文本实体集;对所述待处理文本进行语法结构分析,确定所述标准文本实体集合中的任意两个标准文本实体之间是否存在语法依赖关系,将所述标准文本实体集中的每个标准文本实体作为一个节点,并生成存在语法依赖关系的节点之间的连接边,得到所述待处理文本对应的语法关系图;依次选择所述语法关系图中的一条连接边相连的两个节点作为目标相连节点,对所述目标相连节点做向量转换,得到所述目标相连节点对应的文本向量,根据所述文本向量及预设的实体关系标签列表预测所述目标相连节点之间的文本实体关系;根据所述标准文本实体和所述文本实体关系构建知识图谱,得到所述待处理文本对应的实体关系图。2.如权利要求1所述的实体关系图构建方法,其特征在于,所述对所述初始文本实体集中的文本实体进行同类合并操作,得到标准文本实体集,包括:对所述初始文本实体集的初始文本实体进行指代分类,得到所述初始文本实体集中的具有指代特征的指代实体和非指代实体;获取每个所述指代实体在所述待处理文本中的上下文信息;根据所述上下文信息计算每个所述指代实体与所述初始文本实体集中的任一非指代实体之间的关联度;将满足预设合并条件的关联度对应的非指代实体替换所述指代实体,得到所述标准文本实体集。3.如权利要求1中所述的实体关系图构建方法,其特征在于,所述根据所述标准文本实体和所述文本实体关系构建知识图谱,得到所述待处理文本对应的实体关系图,包括:根据所述标准文本实体和所述文本实体关系构建三元组数据;将所述三元组数据作为知识图谱数据存储入预设的图数据库中,并通过所述待处理文本对所述三元组数据进行数据补全,得到标准三元组数据;基于所述预设的图数据库,通过所述标准三元组数据构建知识图谱,得到所述标准文本实体的实体关系图。4.如权利要求1所述的实体关系图构建,其特征在于,所述对所述待处理文本进行实体识别,包括:对所述待处理文本进行分词,得到分词集合;从预设的语法字典中查找所述分词集合中每个分词对应的词性集;获取每个所述分词在所述待处理文本中的上下文语义信息,从所述词性集中筛选符合所述上下文语义信息的词性,作为对应分词的词性;根据预设的词性与实体映射关系,确定与实体存在映射关系的词性作为目标词性;将所述目标词性对应的分词作为所述待处理文本的初始文本实体,汇集所有所述初始文本实体,得到所述初始文本实体集。5.如权利要求1中所述的实...

【专利技术属性】
技术研发人员:洪丰
申请(专利权)人:北京海卓飞网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1