一种图谱构建方法及其相关设备技术

技术编号:32855758 阅读:61 留言:0更新日期:2022-03-30 19:26
本申请公开了一种图谱构建方法及其相关设备,该方法包括:在获取到包括至少一组因果事件的待使用文本之后,先从该待使用文本抽取至少一个待使用原因事件;再根据各待使用原因事件和该待使用文本,确定各待使用原因事件对应的结果事件;最后,根据至少一个待使用原因事件和该至少一个待使用原因事件对应的结果事件,确定因果事件图谱,以使该因果事件图谱用于记录该待使用文本中所存在的因果关系,如此能够实现自动构建因果事件图谱的目的,从而能够降低因果事件图谱的构建成本。能够降低因果事件图谱的构建成本。能够降低因果事件图谱的构建成本。

【技术实现步骤摘要】
一种图谱构建方法及其相关设备


[0001]本申请涉及自然语言处理领域,尤其涉及一种图谱构建方法及其相关设备。

技术介绍

[0002]因果事件图谱是一种以“事件”为核心的知识图谱;而且该因果事件图谱用于描述不 同事件之间的因果事理关系,以使该因果事件图谱能够模拟出类人脑的知识建模、推理与 分析决策能力。
[0003]然而,因因果事件图谱通常是由专家手动构建的,使得该因果事件图谱的构建成本比 较大。

技术实现思路

[0004]本申请实施例的主要目的在于提供一种图谱构建方法及其相关设备,能够降低因果事 件图谱的构建成本。
[0005]本申请实施例提供了一种图谱构建方法,所述方法包括:获取待使用文本;其中,所 述待使用文本包括至少一组因果事件;从所述待使用文本抽取至少一个待使用原因事件; 根据各所述待使用原因事件和所述待使用文本,确定各所述待使用原因事件对应的结果事 件;根据所述至少一个待使用原因事件和所述至少一个待使用原因事件对应的结果事件, 确定因果事件图谱。
[0006]本申请实施例还提供了一种图谱构建装置,包括:
[0007]文本获取单元,用于获取待使用文本;其中,所述待使用文本包括至少一组因果事件;
[0008]原因抽取单元,用于从所述待使用文本抽取至少一个待使用原因事件;
[0009]结果抽取单元,用于根据各所述待使用原因事件和所述待使用文本,确定各所述待使 用原因事件对应的结果事件;
[0010]图谱构建单元,用于根据所述至少一个待使用原因事件和所述至少一个待使用原因事 件对应的结果事件,确定因果事件图谱。
[0011]本申请实施例还提供了一种设备,所述设备包括:处理器、存储器、系统总线;
[0012]所述处理器以及所述存储器通过所述系统总线相连;
[0013]所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被 所述处理器执行时使所述处理器执行本申请实施例提供的图谱构建方法的任意一种可能的 实施方式。
[0014]本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有 指令,当所述指令在终端设备上运行时,使得所述终端设备执行本申请实施例提供的图谱 构建方法的任意一种可能的实施方式。
[0015]本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行 时,使得所述终端设备执行本申请实施例提供的图谱构建方法的任意一种可能的实
施方式。
[0016]基于上述技术方案,本申请具有以下有益效果:
[0017]本申请提供的技术方案中,在获取到包括至少一组因果事件的待使用文本之后,先从 该待使用文本抽取至少一个待使用原因事件;再根据各待使用原因事件和该待使用文本, 确定各待使用原因事件对应的结果事件;最后,根据至少一个待使用原因事件和该至少一 个待使用原因事件对应的结果事件,确定因果事件图谱,以使该因果事件图谱用于记录该 待使用文本中所存在的因果关系,如此能够实现自动构建因果事件图谱的目的,从而能够 降低因果事件图谱的构建成本。
[0018]另外,因本申请实施例提供的图谱构建方法是按照两步提取方式进行因果事件提取处 理的,使得该图谱构建方法不仅能够针对简单因果文本(也就是,包括单因单果的文本数 据)进行因果事件提取处理,还能够针对复杂因果文本(例如,包括单音多果、多音多果、 或者多音单果等的文本数据)进行因果事件提取处理,如此有利于提高因果事件的提取效 果,从而有利于提高因果事件图谱的构建效果。
附图说明
[0019]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技 术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一 些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这 些附图获得其他的附图。
[0020]图1为本申请实施例提供的一种文本数据的示意图;
[0021]图2为本申请实施例提供的一种图谱构建方法的流程图;
[0022]图3为本申请实施例提供的一种原因事件抽取模型的示意图;
[0023]图4为本申请实施例提供的一种第k个原因位置描述数据的示意图;
[0024]图5为本申请实施例提供的一种事件元素抽取模型的示意图;
[0025]图6为本申请实施例提供的一种因果图谱构建流程的示意图;
[0026]图7为本申请实施例提供的一种噪声事件的示意图;
[0027]图8为本申请实施例提供的一种语义表征模型的示意图;
[0028]图9为本申请实施例提供的一种三元组样本的示意图;
[0029]图10为本申请实施例提供的一种文本数据的事件属性描述信息的示意图;
[0030]图11为本申请实施例提供的一种生成第三文本特征的参考信息的示意图;
[0031]图12为本申请实施例提供的一种第二确定模型的示意图;
[0032]图13为本申请实施例提供的一种图谱构建装置的结构示意图。
具体实施方式
[0033]专利技术人在针对因果事件图谱研究中发现,可以先从大量文本数据(例如,经济领域的 新闻文本数据等)中提取大量因果事件;再由相关人员参考这些因果事件手动构建因果事 件图谱,以使该因果事件图谱用于记录这些因果事件。可见,因果事件可以通过由相关人 员进行人工提取,但是因人工提取方式的提取成本比较大,导致因果事件图谱的构建成本 也比较大。
[0034]专利技术人还发现,为了克服人工提取方式的缺陷,可以借助预先训练的机器学习模型实 现因果事件自动提取处理。其中,上述“预先训练的机器学习模型”比较适用于针对简单 因果文本(例如,图1所示的“文本1”)进行因果事件提取处理;但是,因上述“预先训 练的机器学习模型”无法从复杂因果文本(例如,包括单音多果的文本数据、包括多音多 果的文本数据、或者包括多音单果的文本数据等)中提取出准确且全面的因果事件,导致 上述“预先训练的机器学习模型”针对复杂因果文本的因果事件提取效果较差,从而导致 因果事件图谱的构建效果较差。
[0035]需要说明的是,对于图1来说,“文本1”是一个包括单因单果的文本数据;“文本2
”ꢀ
是一个包括单音多果的文本数据;“文本3”是一个包括多音单果的文本数据。另外,“某 国”用于表示一个国家;“某企”用于表示一个企业。
[0036]基于上述发现,为了解决
技术介绍
部分所示的技术问题,本申请实施例提供了一种图 谱构建方法,该方法包括:在获取到包括至少一组因果事件的待使用文本之后,先从该待 使用文本抽取至少一个待使用原因事件;再根据各待使用原因事件和该待使用文本,确定 各待使用原因事件对应的结果事件;最后,根据至少一个待使用原因事件和至少一个待使 用原因事件对应的结果事件,确定因果事件图谱,以使该因果事件图谱用于记录该待使用 文本中所存在的因果关系,如此能够实现自动构建因果事件图谱的目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图谱构建方法,其特征在于,所述方法包括:获取待使用文本;其中,所述待使用文本包括至少一组因果事件;从所述待使用文本抽取至少一个待使用原因事件;根据各所述待使用原因事件和所述待使用文本,确定各所述待使用原因事件对应的结果事件;根据所述至少一个待使用原因事件和所述至少一个待使用原因事件对应的结果事件,确定因果事件图谱。2.根据权利要求1所述的方法,其特征在于,所述从所述待使用文本抽取至少一个待使用原因事件,包括:将所述待使用文本输入预先构建的原因事件抽取模型,得到所述原因事件抽取模型输出的所述至少一个待使用原因事件;其中,所述原因事件抽取模型包括第一编码层和第一解码层;所述第一解码层的输入数据包括所述第一编码层的输出数据。3.根据权利要求2所述的方法,其特征在于,所述第一解码层包括第一交互网络、第一指针网络和原因确定网络;所述至少一个待使用原因事件的确定过程,包括:根据所述待使用文本和所述第一编码层,确定第一编码特征;将所述第一编码特征输入所述第一交互网络,得到所述第一交互网络输出的第一交互结果;将所述第一交互结果输入所述第一指针网络,得到所述第一指针网络输出的原因位置描述数据;根据所述原因位置描述数据和所述原因确定网络,确定所述至少一个待使用原因事件。4.根据权利要求3所述的方法,其特征在于,所述第一交互结果包括K个候选因果事件类型对应的第一交互特征,且第k个候选因果事件类型对应的第一交互特征的确定过程,包括:将所述第k个候选因果事件类型的表征特征与所述第一编码特征进行语义交互处理,得到所述第k个候选因果事件类型对应的第一交互特征;其中,k为正整数,k≤K,K为正整数。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:对所述待使用文本进行领域分类处理,得到待使用文本领域;从预设映射关系中查找所述待使用领域对应的因果事件类型集;其中,所述预设映射关系包括所述待使用领域与所述待使用领域对应的因果事件类型集之间的对应关系;根据所述待使用领域对应的因果事件类型集,确定K个候选因果事件类型。6.根据权利要求3所述的方法,其特征在于,所述第一交互结果包括K个候选因果事件类型对应的第一交互特征;其中,K为正整数;所述原因位置描述数据的个数为K,且第k个原因位置描述数据的确定过程,包括:对第k个候选因果事件类型对应的第一交互特征进行全连接处理,得到第一全连接结果;其中,k为正整数,k≤K;根据所述第一全连接结果,确定所述第k个原因位置描述数据;其中,k为正整数,k≤K。
7.根据权利要求3所述的方法,其特征在于,所述原因位置描述数据的个数为K,且第k个原因位置描述数据包括第k个起始位置描述数据和第k个结束位置描述数据;其中,k为正整数,k≤K,K为正整数;所述至少一个待使用原因事件的确定过程,包括:若所述第k个原因位置描述数据满足预设单原因条件,则根据所述第k个起始位置描述数据和所述第k个结束位置描述数据,从所述待使用文本中抽取一个所述待使用原因事件;其中,k为正整数,k≤K;若所述第k个原因位置描述数据满足预设多原因条件,则根据所述第k个起始位置描述数据,确定至少两个原因起始位置;根据各所述原因起始位置和所述第k个结束位置描述数据,确定各所述原因起始位置对应的原因结束位置;按照各所述原因起始位置和各所述原因起始位置对应的原因结束位置,从所述待使用文本中抽取各所述待使用原因事件;其中,k为正整数,k≤K。8.根据权利要求7所述的方法,其特征在于,所述原因起始位置的个数为N;其中,N为正整数,2≤N;第n个原因起始位置对应的原因结束位置的确定过程,包括:根据所述第n个原因起始位置和所述第k个结束位置描述数据,确定至少一个候选结束位置;其中,各所述候选结束位置比所述第n个原因起始位置靠后;n为正整数,n≤N;从所述至少一个候选结束位置中筛选出目标结束位置,确定为所述第n个原因起始位置对应的原因结束位置;其中,所述目标结束位置与所述第n个原因起始位置之间的距离,不高于所述至少一个候选结束位置中除了所述目标结束位置以外的其他任意一个候选结束位置与所述第n个原因起始位置之间的距离;n为正整数,n≤N。9.根据权利要求1所述的方法,其特征在于,所述待使用原因事件的个数为J;其中,J为正整数;第j个待使用原因事件对应的结果事件的确定过程,包括:根据所述第j个待使用原因事件和所述待使用文本,确定第一文本特征;其中,j为正整数,j≤J;将所述第一文本特征输入预先构建的事件元素抽取模型,得到所述事件元素抽取模型输出的事件元素抽取结果;其中,所述事件元素抽取结果包括所述第j个待使用原因事件对应的结果事件;所述事件元素抽取模型包括第二编码层和第二解码层;所述第二解码层的输入数据包括所述第二编码层的输出数据。10.根据权利要求9所述的方法,其特征在于,所述第二解码层包括第二指针网络和结果确定网络;所述第j个待使用原因事件对应的结果事件的确定过程,包括:将所述第一文本特征输入第二编码层,得到所述第二编码层输出的第二编码特征;将所述第二编码特征输入所述第二指针网络,得到所述第二指针网络输出的结果位置描述数据;根据所述结果位置描述数据和所述结果确定网络,确定所述第j个待使用原因事件对应的结果事件。11.根据权利要求10所述的方法,其特征在于,所述事件元素抽取结果还包括所述第j
个待使用原因事件对应的事件角色;所述第二解码层还包括第三指针网络和事件角色确定网络;所述第j个待使用原因事件对应的事件角色的确定过程,包括:将所述第二编码特征输入所述第三指针网络,得到所述第三指针网络输出的事件角色识别结果;根据所述事件角色识别结果和所述事件角色确定网络,确定所述第j个待使用原因事件对应的事件角色;所述根据所述至少一个待使用原因事件和所述至少一个待使用原因事件对应的结果事件,确定因果事件图谱,包括:根据所述至少一个待使用原因事件、所述至少一个待使用原因事件对应的结果事件、以及所述至少一个待使用原因事件对应的事件角色,确定因果事件图谱。12.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个待使用原因事件和所述至少一个待使用原因事件对应的结果事件,确定因果事件图谱,包括:根据所述至少一个待使用原因事件和至少一个参考原因事件,确定多个待聚类原因事件;根据所述多个待聚类原因事件的语义特征,对所述多个待聚类原因事件进行聚类处理,得到至少一个原因事件簇;根据所述至少一个原因事件簇、以及所述多个待聚类原因事件对应的结果事件,确定因果事件图谱。13.根据权利要求12所述的方法,其特征在于,所述待聚类原因事件的个数为R;其中,R为正整数;第r个待聚类原因事件的语义特征的确定过程,包括:根据所述第r个待聚类原因事件和预先构建的语义表征模型,确定所述第r个待聚类原因事件的语义特征;其中,所述语义表征模型包括第三编码层和语义表征层;所述语义表征层的输入数据包括所述第三编码层的输出数据;r为正整数,r≤R。14.根据权利要求13所述的方法,其特征在于,所述根据所述第r个待聚类原因事件和预先构建的语义表征模型,确定所述第r个待聚类原因事件的语义特征,包括:对所述第r个待聚类原因事件进行分词处理,得到所述第r个待聚类原因事件的词块标记数据;根据所述第r个待聚类原因事件和所述第r个待聚类原因事件的词块标记数据,确定第二文本特征;将所述第二文本特征输入所述语义表征模型,得到所述语义表征模型输出的语义表征数据;根据所述语义表征数据,确定所述第r个待聚类原因事件的语义特征。15.根据权利要求14所述的方法,其特征在于,所述根据所述语义表征数据,确定所述第r个待聚类原因事件...

【专利技术属性】
技术研发人员:顾成敏代旭东李宝善陈志刚
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1