System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及到深度学习领域,具体而言,涉及到一种端到端的关系三元组抽取方法、装置、设备和存储介质。
技术介绍
1、随着手机和互联网技术的普及,每个人都可以是互联网内容的创造者,而互联网创作者群体的急剧增加导致了互联网信息的指数级增长。其中,文本因为它易于存储、编辑和传播的特性,占据了互联网信息很大一部分的比重。但是由于文本信息体量大、冗余多、结构和来源多样的特点,靠人工来过滤和整理这海量的文本数据需要花费大量的人力且效率低下。如何从海量的文本中高效挖掘出其潜藏的内在价值转化为现实的生产力,已经成为了人们亟待解决的问题。
2、实体识别能够从文本中抽取出一个个实体节点,而关系抽取能够识别出实体和实体之间的关系类型,将孤立的实体节点联系起来。结合实体识别和关系抽取两个任务,可以实现从文本中自动抽取出实体和实体关系构成三元组,即(头实体,关系类型,尾实体)。通过实体识别和关系抽取,能从文本中提取出大量结构化的三元组知识,为信息抽取提供了支撑。
3、传统的实体识别和关系抽取基于流水线模型的方法,即将实体识别和关系抽取模型分开训练,两个模型之间不存在共享的参数。但是流水线模型存在以下的问题:错误传播问题:实体识别是关系抽取的前置任务,实体识别模型的错误会导致关系分类模型无法得到正确的结果;忽略了两个子任务的内在联系:流水线模型将实体识别和关系抽取当成两个独立的任务来分开训练,实际上两个任务之间存在着紧密的交互信息,如一个句子中如果存在“演唱”关系,那么句子中会包含“音乐人”以及“歌曲”实体,这样会类别分布不均衡、多
技术实现思路
1、本专利技术的主要目的为提供一种端到端的关系三元组抽取方法、装置、设备和存储介质,旨在解决传统三元组抽取方式出现的错误传播、信息冗余、忽略子任务内在联系的技术问题。
2、本专利技术公开了以下技术方案:
3、一种端到端的关系三元组抽取方法,包括:
4、s1:获取文本;
5、s2:对所述文本进行编码,获得所述文本的文本向量;
6、s3:根据所述文本向量、当前时刻之前的三元组累加结果和前一时刻的隐藏层结果输入lstm解码器进行计算,得到当前时刻的隐藏层结果;
7、s4:根据当前时刻的所述隐藏层结果和所述文本向量,利用预测模型进行计算,得到当前时刻的三元组,其中,所述三元组包括头实体向量、尾实体向量和关系表征向量;
8、s5:将生成的所述三元组进行累加,得到当前时刻的所述三元组累加结果;
9、s6:判断所述关系表征向量是否为预设标志;
10、s7:若否,则循环s3、s4、s5的步骤;
11、s8:若是,则输出每一时刻的三元组,得到三元组集合。
12、进一步地,所述根据当前时刻的所述隐藏层结果和所述文本向量,利用预测模型进行计算,得到当前时刻的三元组的步骤,包括:
13、根据当前时刻的所述隐藏层结果和所述文本向量,利用头实体预测模型进行计算,得到头实体向量;
14、根据当前时刻的所述隐藏层结果、所述文本向量和所述头实体向量,利用尾实体预测模型进行计算,得到尾实体向量;
15、根据所述头实体向量、所述尾实体向量和当前时刻的所述隐藏层结果,利用关系预测模型进行计算,得到关系表征向量;
16、输出所述头实体向量、所述尾实体向量和所述关系表征向量,得到三元组。
17、进一步地,所述根据当前时刻的所述隐藏层结果和所述文本向量,利用头实体预测模型进行计算,得到头实体向量的步骤,包括:
18、将当前时刻的所述隐藏层结果和所述文本向量进行拼接,得到第一拼接向量;
19、将所述第一拼接向量输入所述头实体预测模型的全连接层进行计算,得到头实体的开始位置的第一向量表示和头实体的结束位置的第二向量表示;
20、将所述第一向量表示、所述第二向量表示和所述第一拼接向量进行融合,得到头实体向量。
21、进一步地,所述根据当前时刻的所述隐藏层结果、所述文本向量和所述头实体向量,利用尾实体预测模型进行计算,得到尾实体向量的步骤,包括:
22、将当前时刻的所述隐藏层结果、所述文本向量和所述头实体向量进行拼接,得到第二拼接向量;
23、将所述第二拼接向量输入所述尾实体预测模型的全连接层进行计算,得到尾实体的开始位置的第三向量表示和尾实体的结束位置的第四向量表示;
24、将所述第三向量表示、所述第四向量表示和所述第二拼接向量进行融合,得到尾实体向量。
25、进一步地,所述根据所述头实体向量、所述尾实体向量和当前时刻的所述隐藏层结果,利用关系预测模型进行计算,得到关系表征向量的步骤,包括:
26、将所述头实体向量、所述尾实体向量和当前时刻的所述隐藏层结果进行拼接,得到第三拼接向量;
27、将所述第三拼接向量输入所述关系预测模型的全连接层进行计算,得到所述关系表征向量。
28、进一步地,所述将生成的所述三元组进行累加,得到当前时刻的所述三元组累加结果的步骤,包括:
29、对所述关系表征向量进行线性变换;
30、将线性变化后的所述关系表征向量、所述头实体向量和所述尾实体向量进行拼接,得到第四拼接向量;
31、将所述第四拼接向量进行累加,得到当前时刻的所述三元组累加结果。
32、进一步地,所述预测模型为双向lsrm模型。
33、本专利技术还提供一种端到端的关系三元组抽取装置,包括:
34、获取模块,用于获取文本;
35、编码模块,用于对所述文本进行编码,获得所述文本的文本向量;
36、第一计算模块,用于根据所述文本向量、当前时刻之前的三元组累加结果和前一时刻的隐藏层结果输入lstm解码器进行计算,得到当前时刻的隐藏层结果;
37、第二计算模块,用于根据当前时刻的所述隐藏层结果和所述文本向量,利用预测模型进行计算,得到当前时刻的三元组,其中,所述三元组包括头实体向量、尾实体向量和关系表征向量;
38、累加模块,用于将生成的所述三元组进行累加,得到当前时刻的所述三元组累加结果;
39、判断模块,用于判断所述关系表征向量是否为预设标志;
40、循环模块,用于若否,则循环s3、s4、s5的步骤;
41、输出模块,用于若是,则输出每一时刻的三元组,得到三元组集合。
42、本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
43、本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的本文档来自技高网...
【技术保护点】
1.一种端到端的关系三元组抽取方法,其特征在于,包括:
2.根据权利要求1所述的一种端到端的关系三元组抽取方法,其特征在于,所述根据当前时刻的所述隐藏层结果和所述文本向量,利用预测模型进行计算,得到当前时刻的三元组的步骤,包括:
3.根据权利要求2所述的一种端到端的关系三元组抽取方法,其特征在于,所述根据当前时刻的所述隐藏层结果和所述文本向量,利用头实体预测模型进行计算,得到头实体向量的步骤,包括:
4.根据权利要求2所述的一种端到端的关系三元组抽取方法,其特征在于,所述根据当前时刻的所述隐藏层结果、所述文本向量和所述头实体向量,利用尾实体预测模型进行计算,得到尾实体向量的步骤,包括:
5.根据权利要求2所述的一种端到端的关系三元组抽取方法,其特征在于,所述根据所述头实体向量、所述尾实体向量和当前时刻的所述隐藏层结果,利用关系预测模型进行计算,得到关系表征向量的步骤,包括:
6.根据权利要求1所述的一种端到端的关系三元组抽取方法,其特征在于,所述将生成的所述三元组进行累加,得到当前时刻的所述三元组累加结果的步骤,包括:<
...【技术特征摘要】
1.一种端到端的关系三元组抽取方法,其特征在于,包括:
2.根据权利要求1所述的一种端到端的关系三元组抽取方法,其特征在于,所述根据当前时刻的所述隐藏层结果和所述文本向量,利用预测模型进行计算,得到当前时刻的三元组的步骤,包括:
3.根据权利要求2所述的一种端到端的关系三元组抽取方法,其特征在于,所述根据当前时刻的所述隐藏层结果和所述文本向量,利用头实体预测模型进行计算,得到头实体向量的步骤,包括:
4.根据权利要求2所述的一种端到端的关系三元组抽取方法,其特征在于,所述根据当前时刻的所述隐藏层结果、所述文本向量和所述头实体向量,利用尾实体预测模型进行计算,得到尾实体向量的步骤,包括:
5.根据权利要求2所述的一种端到端的关系三元组抽取方法,其特征在于,所述根据所述头实体向量、所述尾实体向...
【专利技术属性】
技术研发人员:陈松灿,
申请(专利权)人:广州视源电子科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。