【技术实现步骤摘要】
一种图谱构建方法及其相关设备
[0001]本申请涉及自然语言处理领域,尤其涉及一种图谱构建方法及其相关设备。
技术介绍
[0002]因果事件图谱是一种以“事件”为核心的知识图谱;而且该因果事件图谱用于描述不 同事件之间的因果事理关系,以使该因果事件图谱能够模拟出类人脑的知识建模、推理与 分析决策能力。
[0003]然而,因因果事件图谱通常是由专家手动构建的,使得该因果事件图谱的构建成本比 较大。
技术实现思路
[0004]本申请实施例的主要目的在于提供一种图谱构建方法及其相关设备,能够降低因果事 件图谱的构建成本。
[0005]本申请实施例提供了一种图谱构建方法,所述方法包括:获取待使用文本;其中,所 述待使用文本包括至少一组因果事件;从所述待使用文本抽取至少一个待使用原因事件; 根据各所述待使用原因事件和所述待使用文本,确定各所述待使用原因事件对应的结果事 件;根据所述至少一个待使用原因事件和所述至少一个待使用原因事件对应的结果事件, 确定因果事件图谱。
[0006]本申请实施例还提供了一种图谱构建装置,包括:
[0007]文本获取单元,用于获取待使用文本;其中,所述待使用文本包括至少一组因果事件;
[0008]原因抽取单元,用于从所述待使用文本抽取至少一个待使用原因事件;
[0009]结果抽取单元,用于根据各所述待使用原因事件和所述待使用文本,确定各所述待使 用原因事件对应的结果事件;
[0010]图谱构建单元,用于根据所述至少一个待使用原因 ...
【技术保护点】
【技术特征摘要】
1.一种图谱构建方法,其特征在于,所述方法包括:获取待使用文本;其中,所述待使用文本包括至少一组因果事件;从所述待使用文本抽取至少一个待使用原因事件;根据各所述待使用原因事件和所述待使用文本,确定各所述待使用原因事件对应的结果事件;根据所述至少一个待使用原因事件和所述至少一个待使用原因事件对应的结果事件,确定因果事件图谱。2.根据权利要求1所述的方法,其特征在于,所述从所述待使用文本抽取至少一个待使用原因事件,包括:将所述待使用文本输入预先构建的原因事件抽取模型,得到所述原因事件抽取模型输出的所述至少一个待使用原因事件;其中,所述原因事件抽取模型包括第一编码层和第一解码层;所述第一解码层的输入数据包括所述第一编码层的输出数据。3.根据权利要求2所述的方法,其特征在于,所述第一解码层包括第一交互网络、第一指针网络和原因确定网络;所述至少一个待使用原因事件的确定过程,包括:根据所述待使用文本和所述第一编码层,确定第一编码特征;将所述第一编码特征输入所述第一交互网络,得到所述第一交互网络输出的第一交互结果;将所述第一交互结果输入所述第一指针网络,得到所述第一指针网络输出的原因位置描述数据;根据所述原因位置描述数据和所述原因确定网络,确定所述至少一个待使用原因事件。4.根据权利要求3所述的方法,其特征在于,所述第一交互结果包括K个候选因果事件类型对应的第一交互特征,且第k个候选因果事件类型对应的第一交互特征的确定过程,包括:将所述第k个候选因果事件类型的表征特征与所述第一编码特征进行语义交互处理,得到所述第k个候选因果事件类型对应的第一交互特征;其中,k为正整数,k≤K,K为正整数。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:对所述待使用文本进行领域分类处理,得到待使用文本领域;从预设映射关系中查找所述待使用领域对应的因果事件类型集;其中,所述预设映射关系包括所述待使用领域与所述待使用领域对应的因果事件类型集之间的对应关系;根据所述待使用领域对应的因果事件类型集,确定K个候选因果事件类型。6.根据权利要求3所述的方法,其特征在于,所述第一交互结果包括K个候选因果事件类型对应的第一交互特征;其中,K为正整数;所述原因位置描述数据的个数为K,且第k个原因位置描述数据的确定过程,包括:对第k个候选因果事件类型对应的第一交互特征进行全连接处理,得到第一全连接结果;其中,k为正整数,k≤K;根据所述第一全连接结果,确定所述第k个原因位置描述数据;其中,k为正整数,k≤K。
7.根据权利要求3所述的方法,其特征在于,所述原因位置描述数据的个数为K,且第k个原因位置描述数据包括第k个起始位置描述数据和第k个结束位置描述数据;其中,k为正整数,k≤K,K为正整数;所述至少一个待使用原因事件的确定过程,包括:若所述第k个原因位置描述数据满足预设单原因条件,则根据所述第k个起始位置描述数据和所述第k个结束位置描述数据,从所述待使用文本中抽取一个所述待使用原因事件;其中,k为正整数,k≤K;若所述第k个原因位置描述数据满足预设多原因条件,则根据所述第k个起始位置描述数据,确定至少两个原因起始位置;根据各所述原因起始位置和所述第k个结束位置描述数据,确定各所述原因起始位置对应的原因结束位置;按照各所述原因起始位置和各所述原因起始位置对应的原因结束位置,从所述待使用文本中抽取各所述待使用原因事件;其中,k为正整数,k≤K。8.根据权利要求7所述的方法,其特征在于,所述原因起始位置的个数为N;其中,N为正整数,2≤N;第n个原因起始位置对应的原因结束位置的确定过程,包括:根据所述第n个原因起始位置和所述第k个结束位置描述数据,确定至少一个候选结束位置;其中,各所述候选结束位置比所述第n个原因起始位置靠后;n为正整数,n≤N;从所述至少一个候选结束位置中筛选出目标结束位置,确定为所述第n个原因起始位置对应的原因结束位置;其中,所述目标结束位置与所述第n个原因起始位置之间的距离,不高于所述至少一个候选结束位置中除了所述目标结束位置以外的其他任意一个候选结束位置与所述第n个原因起始位置之间的距离;n为正整数,n≤N。9.根据权利要求1所述的方法,其特征在于,所述待使用原因事件的个数为J;其中,J为正整数;第j个待使用原因事件对应的结果事件的确定过程,包括:根据所述第j个待使用原因事件和所述待使用文本,确定第一文本特征;其中,j为正整数,j≤J;将所述第一文本特征输入预先构建的事件元素抽取模型,得到所述事件元素抽取模型输出的事件元素抽取结果;其中,所述事件元素抽取结果包括所述第j个待使用原因事件对应的结果事件;所述事件元素抽取模型包括第二编码层和第二解码层;所述第二解码层的输入数据包括所述第二编码层的输出数据。10.根据权利要求9所述的方法,其特征在于,所述第二解码层包括第二指针网络和结果确定网络;所述第j个待使用原因事件对应的结果事件的确定过程,包括:将所述第一文本特征输入第二编码层,得到所述第二编码层输出的第二编码特征;将所述第二编码特征输入所述第二指针网络,得到所述第二指针网络输出的结果位置描述数据;根据所述结果位置描述数据和所述结果确定网络,确定所述第j个待使用原因事件对应的结果事件。11.根据权利要求10所述的方法,其特征在于,所述事件元素抽取结果还包括所述第j
个待使用原因事件对应的事件角色;所述第二解码层还包括第三指针网络和事件角色确定网络;所述第j个待使用原因事件对应的事件角色的确定过程,包括:将所述第二编码特征输入所述第三指针网络,得到所述第三指针网络输出的事件角色识别结果;根据所述事件角色识别结果和所述事件角色确定网络,确定所述第j个待使用原因事件对应的事件角色;所述根据所述至少一个待使用原因事件和所述至少一个待使用原因事件对应的结果事件,确定因果事件图谱,包括:根据所述至少一个待使用原因事件、所述至少一个待使用原因事件对应的结果事件、以及所述至少一个待使用原因事件对应的事件角色,确定因果事件图谱。12.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个待使用原因事件和所述至少一个待使用原因事件对应的结果事件,确定因果事件图谱,包括:根据所述至少一个待使用原因事件和至少一个参考原因事件,确定多个待聚类原因事件;根据所述多个待聚类原因事件的语义特征,对所述多个待聚类原因事件进行聚类处理,得到至少一个原因事件簇;根据所述至少一个原因事件簇、以及所述多个待聚类原因事件对应的结果事件,确定因果事件图谱。13.根据权利要求12所述的方法,其特征在于,所述待聚类原因事件的个数为R;其中,R为正整数;第r个待聚类原因事件的语义特征的确定过程,包括:根据所述第r个待聚类原因事件和预先构建的语义表征模型,确定所述第r个待聚类原因事件的语义特征;其中,所述语义表征模型包括第三编码层和语义表征层;所述语义表征层的输入数据包括所述第三编码层的输出数据;r为正整数,r≤R。14.根据权利要求13所述的方法,其特征在于,所述根据所述第r个待聚类原因事件和预先构建的语义表征模型,确定所述第r个待聚类原因事件的语义特征,包括:对所述第r个待聚类原因事件进行分词处理,得到所述第r个待聚类原因事件的词块标记数据;根据所述第r个待聚类原因事件和所述第r个待聚类原因事件的词块标记数据,确定第二文本特征;将所述第二文本特征输入所述语义表征模型,得到所述语义表征模型输出的语义表征数据;根据所述语义表征数据,确定所述第r个待聚类原因事件的语义特征。15.根据权利要求14所述的方法,其特征在于,所述根据所述语义表征数据,确定所述第r个待聚类原因事件...
【专利技术属性】
技术研发人员:顾成敏,代旭东,李宝善,陈志刚,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。