System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及计算机,尤其涉及一种融合反应动作特征的化学反应抽取方法及装置、终端设备及存储介质。
技术介绍
1、化学文献中的合成方法对化学研究有着至关重要的作用。然而,每年发表的化学文献数以万计,人工提取这些文献中的合成过程需要大量人力,且由于每个人知识水平的限制,其效果也是参差不齐。现有技术通过识别化学实体,生成模板,利用模板进行抽取。但是模板抽取的召回率低且模板会随着数量的增多变得难以维护。同时也有一些基于数据的方法,先识别产物,再通过产物识别出跟产物相关的反应角色。这种方法的问题在于产物在中间过程中往往是不出现的,进而整个提取流程就会失败。还有一些方法通过先识别反应动作,而后利用反应动作信息再抽取其他反应角色。但在利用反应动作信息在句子中抽取反应角色时,认为每个词被识别为反应角色的可能性是相等的,这不符合实际情况,反应角色往往反应动作周围。
技术实现思路
1、本公开提供一种融合反应动作特征的化学反应抽取方法、装置及存储介质。
2、本公开实施例第一方面提供一种融合反应动作特征的化学反应抽取方法,应用于电子设备中,所述方法包括:
3、获得文献语句,并抽取化学反应动作;
4、基于bert分词器模型,对所述文献语句进行分词处理,得到多个第一单词片段;
5、对所述多个第一单词片段进行编码,得到各个所述第一单词片段的离散编码、类别信息和参与所述bert分词器模型的第二单词片段;
6、将所有所述单词片段的所述离散编码、所述类别信息和所
7、对于所述反应动作的单词片段对应的bert向量进行平均池化,得到池化向量hpooling;
8、将所述第一嵌入向量hbert和所述池化向量hpooling进行融合,得到融入了反应动作信息的句子第二嵌入向量h′bert;
9、计算各个所述单词片段与反应动作的距离,得到距离特征嵌入向量hd;
10、根据所述第二嵌入向量h′bert和所述距离特征嵌入向量hd,得到融入反应动作信息的第三嵌入向量h″bert;
11、将所述第三嵌入向量h″bert进行线性变换,并使用relu函数激活,得到发射矩阵;
12、将所述发射矩阵输入至条件随机场crf模块,得到解码序列。
13、基于上述方案,所述基于bert分词器模型,对所述文献语句进行分词处理,得到多个第一单词片段,包括:
14、基于wordpieces算法,对所述文献语句使用进行分词处理,得到多个所述第一单词片段,其中,所述第一单词片段中除第一个片段外的其他单词片段以##开头。
15、基于上述方案,所述第一单词片段的类别信息中反应动作单词片段的对应位置为1,其余位置为0。
16、基于上述方案,所述根据所述第二嵌入向量h′bert和所述距离特征嵌入向量hd,得到融入反应动作信息的第三嵌入向量h″bert,包括:
17、将所述第二嵌入向量h′bert,和所述距离特征嵌入向量hd,沿着最后一维进行合并,得到融入反应动作信息的第三嵌入向量h″bert。
18、基于上述方案,所述将所述发射矩阵输入至条件随机场crf模块,得到解码序列,包括:
19、根据所述发射矩阵和所述文献语句的标签信息计算损失,并使用所述损失优化状态转移矩阵;
20、在预测阶段,使用所述发射矩阵和学习到的所述状态转移矩阵,运用维特比算法进行解码,得到所述解码序列。
21、本公开实施例第二方面提供一种融合反应动作特征的化学反应抽取装置,应用于电子设备中,所述装置包括:
22、获取和抽取模块,用于获得文献语句,并抽取化学反应动作;
23、分词处理模块,用于基于bert分词器模型,对所述文献语句进行分词处理,得到多个第一单词片段;
24、编码模块,用于对所述多个第一单词片段进行编码,得到各个所述第一单词片段的离散编码、类别信息和参与所述bert分词器模型的第二单词片段;
25、第一处理模块,用于将所有所述单词片段的所述离散编码、所述类别信息和所述第二单词片段,输入至预训练的所述bert分词器模型,得到所述文献语句的第一嵌入向量hbert;
26、池化模块,用于对于所述反应动作的单词片段对应的bert向量进行平均池化,得到池化向量hpooling;
27、融合模块,用于将所述第一嵌入向量hbert和所述池化向量hpooling进行融合,得到融入了反应动作信息的句子第二嵌入向量h′bert;
28、计算距离模块,用于计算各个所述单词片段与反应动作的距离,得到距离特征嵌入向量hd;
29、第二处理模块,用于根据所述第二嵌入向量h′bert和所述距离特征嵌入向量hd,得到融入反应动作信息的第三嵌入向量h″bert;
30、确定发射矩阵模块,用于将所述第三嵌入向量h″bert进行线性变换,并使用relu函数激活,得到发射矩阵;
31、第三处理模块,用于将所述发射矩阵输入至条件随机场crf模块,得到解码序列。
32、基于上述方案,所述分词处理模块,具体用于基于wordpieces算法,对所述文献语句使用进行分词处理,得到多个所述第一单词片段,其中,所述第一单词片段中除第一个片段外的其他单词片段以##开头。
33、基于上述方案,所述第一单词片段的类别信息中反应动作单词片段的对应位置为1,其余位置为0。
34、基于上述方案,所述第二处理模块,具体用于将所述第二嵌入向量h′bert,和所述距离特征嵌入向量ha,沿着最后一维进行合并,得到融入反应动作信息的第三嵌入向量h″bert。
35、基于上述方案,所述第三处理模块,具体用于根据所述发射矩阵和所述文献语句的标签信息计算损失,并使用所述损失优化状态转移矩阵;在预测阶段,使用所述发射矩阵和学习到的所述状态转移矩阵,运用维特比算法进行解码,得到所述解码序列。
36、本公开实施例第三方面提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由计算机的处理器执行时,使得计算机能够执行如上述任一项所述的融合反应动作特征的化学反应抽取方法。
37、本公开的实施例提供的技术方案可以包括以下有益效果:
38、本公开实施例提供的方法考虑到反应角色往往出现在反应动作周围,因此,句子中的单词片段被识别成反应角色的可能性也是不同的。一般地,距离反应动作较近的单词片段更可能成为反应角色,反之则更不可能成为反应角色。为了能够让模型学习到这种不同,需要将每个单词片段与反应动作的距离信息作为模型的输入特征。
39、本方法提供一种融合反应动作特征的化学反应抽取方法,先识别反应动作而后识别跟反应动作相关的反应角色,解决了中间过程可能不出现产物的问题,将句子中本文档来自技高网...
【技术保护点】
1.一种融合反应动作特征的化学反应抽取方法,应用于电子设备中,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于bert分词器模型,对所述文献语句进行分词处理,得到多个第一单词片段,包括:
3.根据权利要求1所述的方法,其特征在于,所述第一单词片段的类别信息中反应动作单词片段的对应位置为1,其余位置为0。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第二嵌入向量H′BERT和所述距离特征嵌入向量Hd,得到融入反应动作信息的第三嵌入向量H″BERT,包括:
5.根据权利要求1所述的方法,其特征在于,所述将所述发射矩阵输入至条件随机场CRF模块,得到解码序列,包括:
6.一种融合反应动作特征的化学反应抽取装置,应用于电子设备中,其特征在于,所述装置包括:
7.根据权利要求6所述的装置,其特征在于,所述分词处理模块,具体用于基于wordpieces算法,对所述文献语句使用进行分词处理,得到多个所述第一单词片段,其中,所述第一单词片段中除第一个片段外的其他单词片段以##开头。
...【技术特征摘要】
1.一种融合反应动作特征的化学反应抽取方法,应用于电子设备中,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于bert分词器模型,对所述文献语句进行分词处理,得到多个第一单词片段,包括:
3.根据权利要求1所述的方法,其特征在于,所述第一单词片段的类别信息中反应动作单词片段的对应位置为1,其余位置为0。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第二嵌入向量h′bert和所述距离特征嵌入向量hd,得到融入反应动作信息的第三嵌入向量h″bert,包括:
5.根据权利要求1所述的方法,其特征在于,所述将所述发射矩阵输入至条件随机场crf模块,得到解码序列,包括:
6.一种融合反应动作特征的化学反应抽取装置,应用于电子设备中,其特征在于,所述装置包括:
7.根据权利要求6所述的装置,其特征在于,所述分词处理模块,具体用于基于wordpieces算法,对所述文献语句使用进行...
【专利技术属性】
技术研发人员:邓彪,翟飞飞,夏玉龙,
申请(专利权)人:北京中科凡语科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。