基于指针网络的解码器的生物医药知识抽取方法和装置制造方法及图纸

技术编号:37851818 阅读:12 留言:0更新日期:2023-06-14 22:42
本申请涉及大数据处理技术领域的一种基于指针网络的解码器的生物医药知识抽取方法和装置。所述方法包括:设置相互作用元组表示形式;获取生物医药文献的摘要文本数据,并将摘要文本数据中的单词和字符映射成嵌入向量,得到源文本序列的特征表示;将源文本序列特征表示的向量输入到编码器中,得到隐藏表示;将隐藏表示采用注意力机制,得到文本序列编码向量;将源文本序列编码、隐藏表示以及t时刻之前生成的所有元组输入到基于指针网络的解码器中,得到一组相互作用元组。该方法提取整个相互作用元组,而不是单个单词,有助于加快训练过程,并且需要更少的资源,有助于模型从基于句子级的知识抽取转移到基于文档级的知识抽取。取。取。

【技术实现步骤摘要】
基于指针网络的解码器的生物医药知识抽取方法和装置


[0001]本申请涉及大数据
,特别是涉及一种基于指针网络的解码器的生物医药知识抽取方法和装置。

技术介绍

[0002]作为一项基础性研究,有针对性地从生物医学文献中抽取医药研究所需要的像药物

蛋白质实体及其相互作用这样的知识信息为药物挖掘、药物重利用、药物设计,以及以知识图谱形式建立的生物信息知识库提供了强有力支撑。但是,随着研究人员对该任务的研究逐渐深入,宏观上和微观上的问题不断浮出水面。
[0003]从生物医学文献的摘要中抽取药物

蛋白质相互作用元组也是一个具有挑战性十足的任务。在宏观上,前人主要将任务分为实体识别和关系抽取两部分。所建立的模型不光没有考虑上下文信息,还衍生出来两个子任务的先后顺序和特征信息共享的问题。在微观上,实体的长度不同、存在多个元组以及元组之间的实体重叠困扰着抽取三元组的准确性,具体可以罗列为三类:(1)无实体重叠(No Entity Overlap, NEO):一个序列包含一个或多个元组,但它们之间不共享任何实体。(2)实体对重叠(Entity Pair Overlap, EPO):在给定的序列中有多个元组,并且至少两个元组以相同或相反的顺序共享两个实体。(3)单一实体重叠(Single Entity Overlap, SEO):给定的序列包含多个元组,并且至少两个元组正好共享一个实体。这里需要注意的是,一个序列可以是实体对重叠或单一实体重叠。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种基于指针网络的解码器的生物医药知识抽取方法和装置。
[0005]一种基于指针网络的解码器的生物医药知识抽取方法,所述方法包括:设置相互作用元组为三元组,包括两个实体和两个实体之间的相互作用,三元组中组件之间用组件分隔符分隔,三元组之间采用元组分隔符分隔。
[0006]获取生物医药文献的摘要文本数据,并将所述摘要文本数据中的单词和符号映射成嵌入向量,得到源文本序列的特征表示;所述源文本序列包括摘要文本数据中所有单词、符号和每个相互作用的线索词。
[0007]将所述源文本序列的特征表示输入到编码器中,得到编码器的隐藏表示;所述编码器用于将所述源文本序列的特征信息采用Bi

LSTM进行编码。
[0008]将所述编码器的隐藏表示采用注意力机制,得到源文本序列编码。
[0009]将所述源文本序列编码、所述编码器的隐藏表示以及t时刻之前生成的所有元组输入到基于指针网络的解码器中,得到一组相互作用元组;所述基于指针网络的解码器包括用于生成元组序列的解码模块,用于查找实体的指针网络,以及用于查找一个元组的相互作用的分类网络,其中两个指针网络是结构相同的网络。
[0010]一种基于指针网络的解码器的生物医药知识抽取装置,所述装置包括:
相互作用元组形式设置模块,用于设置相互作用元组为三元组,包括两个实体和两个实体之间的相互作用,三元组中组件之间用组件分隔符分隔,三元组之间采用元组分隔符分隔。
[0011]摘要文本数据获取模块,用于获取生物医药文献的摘要文本数据,并将所述摘要文本数据中的单词和符号映射成嵌入向量,得到源文本序列的特征表示;所述源文本序列包括摘要文本数据中所有单词、符号和每个相互作用的线索词。
[0012]编码模块,用于将所述源文本序列的特征表示输入到编码器中,得到编码器的隐藏表示;所述编码器用于将所述源文本序列的特征信息采用Bi

LSTM进行编码;将所述编码器的隐藏表示采用注意力机制,得到源文本序列编码。
[0013]基于指针网络的解码模块,用于将所述源文本序列编码、所述编码器的隐藏表示以及t时刻之前生成的所有元组输入到基于指针网络的解码器中,得到一组相互作用元组;所述基于指针网络的解码器包括用于生成元组序列的解码模块,用于查找实体的指针网络,以及用于查找一个元组的相互作用的分类网络,其中两个指针网络是结构相同的网络。
[0014]上述基于指针网络的解码器的生物医药知识抽取方法和装置。所述方法包括:设置相互作用元组表示形式;获取生物医药文献的摘要文本数据,并将摘要文本数据中的单词和字符映射成嵌入向量,得到源文本序列的特征表示;将源文本序列特征表示的向量输入到编码器中,得到隐藏表示;将隐藏表示采用注意力机制,得到文本序列编码向量;将源文本序列编码、隐藏表示以及t时刻之前生成的所有元组输入到基于指针网络的解码器中,得到一组相互作用元组。该方法提取整个相互作用元组,而不是单个单词,有助于加快训练过程,并且需要更少的资源,有助于模型从基于句子级的知识抽取转移到基于文档级的知识抽取。
附图说明
[0015]图1为一个实施例中基于指针网络的解码器的生物医药知识抽取方法的流程示意图;图2为另一个实施例中基于指针网络解码的模型的结构示意图;图3为一个实施例中基于指针网络的解码器的生物医药知识抽取装置的结构框图。
具体实施方式
[0016]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0017]在一个实施例中,如图1所示,提供了一种基于指针网络的解码器的生物医药知识抽取方法,该方法包括以下步骤:步骤100:设置相互作用元组为三元组,包括两个实体和两个实体之间的相互作用,三元组中组件之间用组件分隔符分隔,三元组之间采用元组分隔符分隔。
[0018]具体的,将每个相互作用元组表示为:实体 1;实体 2;相互作用。用“;”作为分隔元组组件的分隔符(即组件分隔符为“;”),以及“|”分隔多个元组的符号(元组分割符为

|”)。可以使用这些特殊令牌(“(“:”和“|”)以简单的方式表示具有重叠实体和不同长度实体的多个相互作用元组。在推理过程中,序列生成结束后,可以使用这些特殊令牌轻松提取相互作用元组。由于这种统一的相互作用元组表示方案,实体令牌、相互作用令牌和特殊令牌被类似地对待,在编码器和解码器之间使用一个包含所有这些令牌的共享词汇表(共享词汇表中包含实体令牌、相互作用令牌和特殊令牌)。输入的文本序列(由于生物医药文献的摘要文本是一串文字、单词或者字符序列,所以叫它文本序列)中包含了每个相互作用的线索词,这有助于生成相互作用令牌。使用两个特殊令牌,以便编码器

解码器模型可以区分相互作用元组的开头和元组组件的开头。为了使用编码器

解码器模型从文本序列中提取相互作用元组,该模型必须生成实体令牌,找到相互作用的线索词并将它们映射到相互作用令牌,并在适当的时候生成特殊令牌。表1所示为相互作用元组表示方式示例。
[0019]表1相互作用元组表示方式示例表
[0020]步骤102:获取生物医药文献的摘要文本数据,并将摘要文本数据中的单词和符号映射成嵌入向量,得到源文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于指针网络的解码器的生物医药知识抽取方法,其特征在于,所述方法包括:设置相互作用元组为三元组,包括两个实体和两个实体之间的相互作用,三元组中组件之间用组件分隔符分隔,三元组之间采用元组分隔符分隔;获取生物医药文献的摘要文本数据,并将所述摘要文本数据中的单词和符号映射成嵌入向量,得到源文本序列的特征表示;所述源文本序列包括摘要文本数据中所有单词、符号和每个相互作用的线索词;将所述源文本序列的特征表示输入到编码器中,得到编码器的隐藏表示;所述编码器用于将所述源文本序列的特征信息采用Bi

LSTM进行编码;将所述编码器的隐藏表示采用注意力机制,得到源文本序列编码;将所述源文本序列编码、所述编码器的隐藏表示以及t时刻之前生成的所有元组输入到基于指针网络的解码器中,得到一组相互作用元组;所述基于指针网络的解码器包括用于生成元组序列的解码模块,用于查找实体的指针网络,以及用于查找一个元组的相互作用的分类网络,其中两个指针网络是结构相同的网络。2.根据权利要求1所述的方法,其特征在于,获取生物医药文献的摘要文本数据,并将所述摘要文本数据中的单词和符号映射成嵌入向量,得到源文本序列的特征表示,包括:获取生物医药文献的源摘要文本;根据所述源摘要文本构建词汇表,所述词汇表包括源摘要文本令牌、相互作用集R中的相互作用的名称、组件分隔符、元组分割符、目标序列开始令牌、结束目标序列令牌;对源摘要文本采用Word2Vec工具初始化单词嵌入,得到预训练词向量;对源摘要文本采用具有最大池化的卷积网络提取基于字符的单词特征向量;将所述预训练词向量和所述基于字符的单词特征向量连接,得到源文本序列的特征表示。3.根据权利要求1所述的方法,其特征在于,所述编码器包括若干个Bi

LSTM网络单元,Bi

LSTM网络单元的数量与源文本序列的特征表示的长度相同;将所述源文本序列的特征表示输入到编码器中,得到编码器的隐藏表示,包括:将所述源文本序列的特征表示中的每个令牌向量表示分别输入到编码器中对应的Bi

LSTM网络单元中,得到所述源文本序列的特征表示中的每个令牌向量表示的隐藏表示。4.根据权利要求1所述的方法,其特征在于,将所述编码器的隐藏表示采用注意力机制,得到源文本序列编码,步骤中所述注意力机制为:Single注意力机制;Single注意力机制的表达式为:;;;;;
其中, 、和都是可训练的注意参数,是一个偏置向量,是第个词在解码时间步长的归一化注意分数,是解码器中LSTM网络单元的前向隐层状态。5.根据权利要求1所述的方法,其特征在于,所述解码模块为LSTM网络单元;将所述源文本序列编码、所述编码器的隐藏表示以及t时刻之前生成的所有元组输入到基于指针网络的解码器中,得到一组相互作用元组,包括:将所述源文本序列编码、t时刻之前生成的所有元组以及LSTM网络单元的前向隐层状态输入到LSTM网络单元中,得到当前元组的隐藏表示;将当前元组的隐藏表示与所述编码器的隐藏表示连接后输入到两个指针网络中,得到第一实体向量表示和第二实体向量表示;将所述第一实体向量表示、第二实体向量表示以及当前元组的隐藏表示输入到分类网络中,得到第一实体和第二实体的相互作用嵌入向量;根据第一实体的向量表示、第二实体的向量表示以及第一实体和第二实体的相互作用嵌入向量,得到一组相互作用的元组。6.根据权利要求5所述的方法,其特征在于,指针网络包括一个Bi

LSTM网络单元和两个前馈层;将当前元组的隐藏表示与所述编码器的隐藏表示连接后输入到两个指针网络中,得到第一实体的向量表示和第二实体向量表示,包括:将所述当前元组的隐藏表示与所述编码器的隐藏表示连接后输入到第一个指针网络的Bi

LSTM网络单元中,得到Bi

【专利技术属性】
技术研发人员:邱炎龙杨灿群吴诚堃刘毅赵然张森
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1