System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于联合建模方式的化学反应抽取方法及系统技术方案_技高网

一种基于联合建模方式的化学反应抽取方法及系统技术方案

技术编号:40184284 阅读:5 留言:0更新日期:2024-01-26 23:49
本发明专利技术属于自然语言处理技术领域,具体提供了一种基于联合建模方式的化学反应抽取方法及系统,其中方法包括:从文档中抽取与化学制备过程相关的关键段落;将所述关键段落中,以句子为最小单元作为输入,通过抽取模型进行预测,输出反应动作。本方案基于数据的方式,其克服了因模板数据增多而变得不可维护的缺点,只需提供标注数据即可。另一方面,通过采用联合建模方式,克服了流水线方式常常出现的错误传播问题,适用范围更广,鲁棒性更好。加强了各个提取要素之间的交互,可以更准确地提取反应要素。同时在模型解码时采用了受限的解码方式,降低了解码算法的时间复杂度,提高了模型效率。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,特别涉及一种基于联合建模方式的化学反应抽取方法及系统


技术介绍

1、化学文献中的合成方法对化学研究有着至关重要的作用。然而,每年发表的化学文献数以万计,人工提取这些文献中的合成过程需要大量人力,且由于每个人知识水平的限制,其效果也是参差不齐。现有技术通过识别化学实体,生成模板,利用模板进行抽取。但是模板抽取的召回率低且模板会随着数量的增多变得难以维护。同时也有一些基于数据的方法,先识别产物,再通过产物识别出跟产物相关的反应角色。这种流水线模型的思想在于将任务分解成多个子任务,进而分别设计子模型来解决。这种级联的模型设计常常会导致错误传播,即子模型的预测错误会传递到其后面的模型,且无法进行纠正。究其原因是因为各个子模型彼此独立,缺乏交互,忽略了子模型之间的联系。


技术实现思路

1、本专利技术旨在至少解决现有技术中存在的技术问题之一,提出了一种基于联合建模方式的化学反应抽取方法及系统。

2、第一方面,本专利技术提供了一种基于联合建模方式的化学反应抽取方法,包括:

3、从文档中抽取与化学制备过程相关的关键段落;

4、将所述关键段落中,以句子为最小单元作为输入,通过抽取模型进行预测,输出反应动作。

5、优选地,所述抽取模型进行预测输出还包括反应物、产物或反应条件中的一个或多个。

6、优选地,采用联合建模方式建立抽取模型,以增强反应动作和反应角色之间的交互,所述反应角色为反应物、产物或反应条件中的一个或多个。

7、优选地,所述采用联合建模方式建立抽取模型具体包括:

8、从一句话中抽取所有实体,包含反应动作、反应物、产物和反应条件,所有实体都在一个模型空间下。

9、优选地,所述抽取模型采用编码器/解码器架构,利用编码器将输入的句子编码成固定大小的编码向量,然后解码器根据编码向量、已经预测出来的字符和当前输入的字符来预测下一个输出字符。

10、优选地,所述抽取模型的输入、预测的具体过程如下:

11、s201,将输入句子x使用编码器进行编码,得到编码向量h,所述编码器使用多层transformer-encoder架构,h=encoder(x1,x2,...,xm);

12、s202,使用解码器进行解码,得到当前解码状态向量和当前输出字符yi,具体向量表示如下:

13、

14、

15、循环执行步骤s201~s202,最后得到y1,y2,...,yn;

16、其中,xi代表输入句子的第i个字符,xi∈vocab,yi代表输出句子的第i个字符,yi∈vocab,vocab代表整个词表。

17、优选地,所述抽取模型采用受限的解码方式来加速模型收敛,具体包括:

18、在编码过程中,字符“[”之后,只能是“[”、“(”、“]”这三个字符中一个或多个;

19、字符“]”之后只能是字符“[”、“]”中一个或多个;

20、字符“(”之后只能是字符“反应物”、“产物”中一个或多个;

21、字符“)”之后只能是字符“(”、“]”中一个或多个;

22、字符“反应物”、“产物”或“反应条件”之后只能是字符“,”,此时字符“,”之后只能是原文的片段;

23、字符“反应动作”之后,只能是在输入文本中存在的文本片段,以此来指示“反应动作”的内容。

24、优选地,所述抽取模型采用嵌套列表的结构表示一个句子中的化学反应,从前至后书写所述关键段落中每个句子对应的化学反应,并形成序列作为所述抽取模型的输出。

25、本专利技术还提供了一种基于联合建模方式的化学反应抽取系统,所述系统可用于实现所述基于联合建模方式的化学反应抽取方法,所述系统包括:

26、关键段落提取模块,被配置为从文档中抽取与化学制备过程相关的关键段落;

27、化学反应抽取模块,被配置为将所述关键段落中,以句子为最小单元作为输入,通过抽取模型进行预测,输出反应动作。

28、本专利技术还提供了一种电子设备,包括:

29、一个或多个处理器;

30、存储器,用于存储一个或多个程序;

31、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现所述基于联合建模方式的化学反应抽取方法。

32、有益效果:

33、本专利技术只需要提供标注数据,而后通过一种简单高效的方式将标注数据转换成结构良好的文本序列,就可以完成构建数据。具体通过采用联合建模方式,克服了流水线方式常常出现的错误传播问题,适用范围更广,鲁棒性更好。加强了各个提取要素之间的交互,可以更准确地提取反应要素。同时在模型解码时采用了受限的解码方式,降低了解码算法的时间复杂度,提高了模型效率。

本文档来自技高网...

【技术保护点】

1.一种基于联合建模方式的化学反应抽取方法,其特征在于,包括:

2.根据权利要求1所述的基于联合建模方式的化学反应抽取方法,其特征在于,所述抽取模型进行预测输出还包括反应物、产物或反应条件中的一个或多个。

3.根据权利要求1所述的基于联合建模方式的化学反应抽取方法,其特征在于,采用联合建模方式建立抽取模型,以增强反应动作和反应角色之间的交互,所述反应角色为反应物、产物或反应条件中的一个或多个。

4.根据权利要求3所述的基于联合建模方式的化学反应抽取方法,其特征在于,所述采用联合建模方式建立抽取模型具体包括:

5.根据权利要求1所述的基于联合建模方式的化学反应抽取方法,其特征在于,所述抽取模型采用编码器/解码器架构,利用编码器将输入的句子编码成固定大小的编码向量,然后解码器根据编码向量、已经预测出来的字符和当前输入的字符来预测下一个输出字符。

6.根据权利要求5所述的基于联合建模方式的化学反应抽取方法,其特征在于,所述抽取模型的输入、预测的具体过程如下:

7.根据权利要求5所述的基于联合建模方式的化学反应抽取方法,其特征在于,所述抽取模型采用受限的解码方式来加速模型收敛,具体包括:

8.根据权利要求1所述的基于联合建模方式的化学反应抽取方法,其特征在于,所述抽取模型采用嵌套列表的结构表示一个句子中的化学反应,从前至后书写所述关键段落中每个句子对应的化学反应,并形成序列作为所述抽取模型的输出。

9.一种基于联合建模方式的化学反应抽取系统,其特征在于,所述系统可用于实现上述权利要求1至8中任一所述基于联合建模方式的化学反应抽取方法,所述系统包括:

10.一种电子设备,其特征在于,包括:

...

【技术特征摘要】

1.一种基于联合建模方式的化学反应抽取方法,其特征在于,包括:

2.根据权利要求1所述的基于联合建模方式的化学反应抽取方法,其特征在于,所述抽取模型进行预测输出还包括反应物、产物或反应条件中的一个或多个。

3.根据权利要求1所述的基于联合建模方式的化学反应抽取方法,其特征在于,采用联合建模方式建立抽取模型,以增强反应动作和反应角色之间的交互,所述反应角色为反应物、产物或反应条件中的一个或多个。

4.根据权利要求3所述的基于联合建模方式的化学反应抽取方法,其特征在于,所述采用联合建模方式建立抽取模型具体包括:

5.根据权利要求1所述的基于联合建模方式的化学反应抽取方法,其特征在于,所述抽取模型采用编码器/解码器架构,利用编码器将输入的句子编码成固定大小的编码向量,然后解码器根据编码向量、已经预测出来的...

【专利技术属性】
技术研发人员:周玉夏玉龙
申请(专利权)人:北京中科凡语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1