【技术实现步骤摘要】
基于指针网络的解码器的生物医药知识抽取方法和装置
[0001]本申请涉及大数据
,特别是涉及一种基于指针网络的解码器的生物医药知识抽取方法和装置。
技术介绍
[0002]作为一项基础性研究,有针对性地从生物医学文献中抽取医药研究所需要的像药物
‑
蛋白质实体及其相互作用这样的知识信息为药物挖掘、药物重利用、药物设计,以及以知识图谱形式建立的生物信息知识库提供了强有力支撑。但是,随着研究人员对该任务的研究逐渐深入,宏观上和微观上的问题不断浮出水面。
[0003]从生物医学文献的摘要中抽取药物
‑
蛋白质相互作用元组也是一个具有挑战性十足的任务。在宏观上,前人主要将任务分为实体识别和关系抽取两部分。所建立的模型不光没有考虑上下文信息,还衍生出来两个子任务的先后顺序和特征信息共享的问题。在微观上,实体的长度不同、存在多个元组以及元组之间的实体重叠困扰着抽取三元组的准确性,具体可以罗列为三类:(1)无实体重叠(No Entity Overlap, NEO):一个序列包含一个或多个元组,但它们之间不共享任何实体。(2)实体对重叠(Entity Pair Overlap, EPO):在给定的序列中有多个元组,并且至少两个元组以相同或相反的顺序共享两个实体。(3)单一实体重叠(Single Entity Overlap, SEO):给定的序列包含多个元组,并且至少两个元组正好共享一个实体。这里需要注意的是,一个序列可以是实体对重叠或单一实体重叠。
技术实现思路
[000 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于指针网络的解码器的生物医药知识抽取方法,其特征在于,所述方法包括:设置相互作用元组为三元组,包括两个实体和两个实体之间的相互作用,三元组中组件之间用组件分隔符分隔,三元组之间采用元组分隔符分隔;获取生物医药文献的摘要文本数据,并将所述摘要文本数据中的单词和符号映射成嵌入向量,得到源文本序列的特征表示;所述源文本序列包括摘要文本数据中所有单词、符号和每个相互作用的线索词;将所述源文本序列的特征表示输入到编码器中,得到编码器的隐藏表示;所述编码器用于将所述源文本序列的特征信息采用Bi
‑
LSTM进行编码;将所述编码器的隐藏表示采用注意力机制,得到源文本序列编码;将所述源文本序列编码、所述编码器的隐藏表示以及t时刻之前生成的所有元组输入到基于指针网络的解码器中,得到一组相互作用元组;所述基于指针网络的解码器包括用于生成元组序列的解码模块,用于查找实体的指针网络,以及用于查找一个元组的相互作用的分类网络,其中两个指针网络是结构相同的网络。2.根据权利要求1所述的方法,其特征在于,获取生物医药文献的摘要文本数据,并将所述摘要文本数据中的单词和符号映射成嵌入向量,得到源文本序列的特征表示,包括:获取生物医药文献的源摘要文本;根据所述源摘要文本构建词汇表,所述词汇表包括源摘要文本令牌、相互作用集R中的相互作用的名称、组件分隔符、元组分割符、目标序列开始令牌、结束目标序列令牌;对源摘要文本采用Word2Vec工具初始化单词嵌入,得到预训练词向量;对源摘要文本采用具有最大池化的卷积网络提取基于字符的单词特征向量;将所述预训练词向量和所述基于字符的单词特征向量连接,得到源文本序列的特征表示。3.根据权利要求1所述的方法,其特征在于,所述编码器包括若干个Bi
‑
LSTM网络单元,Bi
‑
LSTM网络单元的数量与源文本序列的特征表示的长度相同;将所述源文本序列的特征表示输入到编码器中,得到编码器的隐藏表示,包括:将所述源文本序列的特征表示中的每个令牌向量表示分别输入到编码器中对应的Bi
‑
LSTM网络单元中,得到所述源文本序列的特征表示中的每个令牌向量表示的隐藏表示。4.根据权利要求1所述的方法,其特征在于,将所述编码器的隐藏表示采用注意力机制,得到源文本序列编码,步骤中所述注意力机制为:Single注意力机制;Single注意力机制的表达式为:;;;;;
其中, 、和都是可训练的注意参数,是一个偏置向量,是第个词在解码时间步长的归一化注意分数,是解码器中LSTM网络单元的前向隐层状态。5.根据权利要求1所述的方法,其特征在于,所述解码模块为LSTM网络单元;将所述源文本序列编码、所述编码器的隐藏表示以及t时刻之前生成的所有元组输入到基于指针网络的解码器中,得到一组相互作用元组,包括:将所述源文本序列编码、t时刻之前生成的所有元组以及LSTM网络单元的前向隐层状态输入到LSTM网络单元中,得到当前元组的隐藏表示;将当前元组的隐藏表示与所述编码器的隐藏表示连接后输入到两个指针网络中,得到第一实体向量表示和第二实体向量表示;将所述第一实体向量表示、第二实体向量表示以及当前元组的隐藏表示输入到分类网络中,得到第一实体和第二实体的相互作用嵌入向量;根据第一实体的向量表示、第二实体的向量表示以及第一实体和第二实体的相互作用嵌入向量,得到一组相互作用的元组。6.根据权利要求5所述的方法,其特征在于,指针网络包括一个Bi
‑
LSTM网络单元和两个前馈层;将当前元组的隐藏表示与所述编码器的隐藏表示连接后输入到两个指针网络中,得到第一实体的向量表示和第二实体向量表示,包括:将所述当前元组的隐藏表示与所述编码器的隐藏表示连接后输入到第一个指针网络的Bi
‑
LSTM网络单元中,得到Bi
技术研发人员:邱炎龙,杨灿群,吴诚堃,刘毅,赵然,张森,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。