一种基于特征自动学习的生物医学事件触发词识别方法技术

技术编号:14551884 阅读:141 留言:0更新日期:2017-02-05 01:02
本发明专利技术涉及生物医学技术领域,一种基于特征自动学习的生物医学事件触发词识别方法,包括以下步骤:1、数据预处理,2、构建事件触发词词典,3、构建候选触发词实例,4、卷积神经网络模型学习特征,5、神经网络模型训练,6、事件触发词分类。本发明专利技术方法具有以下优点:一是,简化了对数据的复杂预处理,省去了人工进行特征设计的繁琐步骤;二是,引入了领域知识,有效地利用了大量未标注语料等外部资源;三是,使用卷积神经网络进行特征的自动学习,不仅减少了人工干预,而且能够挖掘和探索到更深层次的句子级别特征,并通过融合局部特征,发现了隐含的全局特征,有助于识别触发词类别;四是,本发明专利技术方法在MLEE语料上得到了较好的实验结果,事件触发词检测的整体性能有所提高。

A method of recognizing biomedical event trigger words based on feature automatic learning

The present invention relates to the field of biomedical technology, a biomedical event trigger word identification method based on the feature of automatic learning, which comprises the following steps: 1, data preprocessing, 2 to construct the trigger word dictionary, 3, construct the candidate trigger word examples, 4, convolutional neural network model learning characteristics, 5, neural network model training. 6, event trigger word classification. The method of the invention has the following advantages: first, to simplify the complexity of the data preprocessing, eliminating the tedious steps of artificial feature design; two, was introduced to the field of knowledge, effective use of unlabeled examples and other external resources; three, automatic learning to use convolution neural network characteristics, not only reduce the manual intervention, but also to explore the deeper sentence level features, and through the integration of local features and global features found hidden, helps to identify the trigger word categories; the four is the method of the invention has good results on the MLEE data, the overall performance of the detection of event trigger words have to improve.

【技术实现步骤摘要】

本专利技术涉及一种基于特征自动学习的生物医学事件触发词识别方法,属于生物医学文本挖掘

技术介绍
在生物医学领域,如何从蕴含大量文本的数据库中抽取出有用的信息,对于人类医学和生命科学的发展有着重要指导意义。鉴于此,越来越多的科学研究者投入到了生物医学文本的知识挖掘研究中,例如生物领域的命名实体识别、蛋白质与蛋白质之间的关系抽取以及药物与药物之间的关系抽取等研究方向。但是这对于挖掘生物医学文本中隐藏的多元关系仍是不够的,因此专注于蛋白质、基因等生物实体之间的动态作用或关系抽取的生物医学事件抽取任务引起了人们的广泛关注。生物医学文本的事件抽取实质上就是信息抽取在生物医学领域的一个重要应用,已经成为信息抽取技术的一个有力工具,正在日益影响着生物医学自然语言处理的发展方向。生物医学领域内的事件指的是生物分子之间的交互作用以及作用后产生的结果,事件抽取目的在于从海量的生物医学文献中抽取出如事件主题、事件类型和事件触发词等生物事件的语义与角色信息。例如,给定语料中的一个句子,“LIFinducedadose-dependentincreaseinp24antigenproductioninthechronicallyinfectedpromonocytic...”,该句包含两个事件,一个是基因表达事件,触发词为“production”,对应事件元素为“antigen”;另一个为正向调控事件,触发词为“increase”,对应两个事件元素主体和客体,主体为上述的基因表达事件,客体为蛋白质“LIF”。生物医学领域中,生物通路是在细胞和分子水平的一个重要模型,是我们至今较为理解的一个生活系统,这些通路有助于人们确定生物功能,帮助人们深刻认识生物疾病以至于发现新的药物,而生物医学事件抽取技术所具有的广泛应用价值正是在构建通路、丰富数据库等领域。由此可以看出,对生物医学事件抽取技术的学习与研究,对有效地自动识别出生物医学家所需要的信息以及发现被大量的可获得信息掩盖的关系,已经成为了一个必然的趋势。近年来,事件抽取的步骤大多是分为事件触发词分类与事件元素检测,处于核心地位的事件元素的抽取通常需要在触发词抽取完成后才能进行。那么,事件触发词的检测处于至关重要的位置,它的性能的好坏直接决定了事件元素检测的准确性,所以对于事件触发词识别的研究意义同样十分重大。由于生物医学事件触发词抽取存在的大量难点(如歧义性、特征选取等问题),寻找到行之有效的方法来进行生物医学事件触发词抽取是非常有必要的。近年来,国内外学者都已经展开了对生物医学事件触发词抽取技术的研究,提出了很多相对比较成熟的理论,一些生物医学事件触发词抽取的原型系统也应运而生。综合来看,生物医学事件触发词抽取的方法主要分为两大类:基于模式匹配方法和基于机器学习方法。(1)基于模式匹配方法,模式匹配方法是在一些模式的指导下进行的,由此来识别和抽取出某种类型的事件触发词,通过采用各种算法将待抽取的触发词与给定的模式规则进行匹配。通常,模式匹配方法由模式获取和触发词抽取两个基本步骤组成。当然,采用不同的模式匹配,得到的事件触发词抽取系统也是各有千秋的,但从总体性能上来说,基于模式匹配的事件触发词抽取准确率较高,表示直观且清晰。事物都存在两面性,这种方法也存在其局限性,过分依赖于具体领域及文本格式,文本标志过程费时费力且容易产生歧义性,并且一旦语料发生转移或改变,其系统的可移植性就会大大降低,往往还需要重新做很多工作,因此在选取的时候要考虑实际情况。(2)基于机器学习方法,机器学习方法是将事件触发词抽取看作是分类问题,建立在统计模型的基础之上,它的原理是选取恰当的特征以及核函数使用合适的分类器来达到事件触发词分类的目的。机器学习方法的优点在于灵活性较好,比较客观便于人们的理解,使用起来简单易懂。因此,现如今机器学习方法已经成为事件触发词抽取研究领域的主流和前沿方向。
技术实现思路
为了克服现有技术中存在的不足,本专利技术目的是提供一种基于特征自动学习的生物医学事件触发词识别方法。该识别方法能有效地挖掘句子级别的高层次特征,减少了人工干预,并能进行自动的训练和学习。为了实现上述专利技术目的,解决现有技术中所存在的问题,本专利技术采取的技术方案是:一种基于特征自动学习的生物医学事件触发词识别方法,包括以下步骤:步骤1、数据预处理,包括对原始语料的处理以及外部数据资源的引入,具体包括以下子步骤:(a)由于语料中跨句子的生物医学事件比例非常小,则在本专利技术方法中对生物医学事件触发词的检测是以句子为单位,使用生物医学领域分句工具GeniaSentenceSplitter对实验语料中所有txt文件的数据进行句子切分;(b)为了更好地挖掘生物医学事件触发词的语义和语法信息,本专利技术方法引入了由领域知识训练得到的词向量查找表,该查找表可以将单词映射成一个向量,这种向量表示的单词可以便捷地度量单词之间的相似度及其隐含的语义和语法信息;本专利技术方法获取的词向量,是在Pubmed上训练所得到的词向量,每个词向量维度为200维;步骤2、构建事件触发词词典,采用基于统计的方法构建事件触发词词典,词典中所有单词都来源于训练集中标注为触发词的单词,经过统计分析,本专利技术发现在训练集已标注的触发词中,大多数的触发词是单个单词,而多个单词组成的触发词数量非常少,对于单个单词形成的触发词,本专利技术方法不做任何处理直接纳入到候选触发词词典中;而对于多个单词组成的触发词,本专利技术方法考虑到其不利于后期扩展以及增大了方法复杂度的原因,不直接将其纳入到候选触发词词典中,而是经过拆分成单个单词后,再纳入到候选触发词词典中;步骤3、构建候选触发词实例,本专利技术方法设计的候选触发词实例主要包括以下两部分内容:(a)邻居特征,遍历每个句子,如果句中的某个单词为候选触发词词典中的单词,抽取其在句中固定窗口内的单词作为候选触发词实例,这里,本专利技术方法选取的窗口大小为9,包括候选触发词本身以及其前4个单词和后四个单词;(b)蛋白质特征,同时考虑到事件候选触发词和蛋白质通常会成对出现,两者之间有密不可分的联系,所以在构建候选触发词实例时,会将句中蛋白质信息作为人工设计的一个词语表示并加入到构建候选触发词实例中;本专利技术方法所设计的蛋白质信息包括三类:一是,候选触发词在句子中的前s个单词和后s个单词内是否出现蛋白质,二是,出现的所有蛋白质的名称,三是,出现的所有蛋白质的类型;根据语本文档来自技高网
...
一种基于特征自动学习的生物医学事件触发词识别方法

【技术保护点】
一种基于特征自动学习的生物医学事件触发词识别方法,其特征在于包括以下步骤:步骤1、数据预处理,包括对原始语料的处理以及外部数据资源的引入,具体包括以下子步骤:(a)由于语料中跨句子的生物医学事件比例非常小,则在本专利技术方法中对生物医学事件触发词的检测是以句子为单位,使用生物医学领域分句工具Genia Sentence Splitter对实验语料中所有txt文件的数据进行句子切分;(b)为了更好地挖掘生物医学事件触发词的语义和语法信息,本专利技术方法引入了由领域知识训练得到的词向量查找表,该查找表可以将单词映射成一个向量,这种向量表示的单词可以便捷地度量单词之间的相似度及其隐含的语义和语法信息;本专利技术方法获取的词向量,是在Pubmed上训练所得到的词向量,每个词向量维度为200维;步骤2、构建事件触发词词典,采用基于统计的方法构建事件触发词词典,词典中所有单词都来源于训练集中标注为触发词的单词,经过统计分析,本专利技术发现在训练集已标注的触发词中,大多数的触发词是单个单词,而多个单词组成的触发词数量非常少,对于单个单词形成的触发词,本专利技术方法不做任何处理直接纳入到候选触发词词典中;而对于多个单词组成的触发词,本专利技术方法考虑到其不利于后期扩展以及增大了方法复杂度的原因,不直接将其纳入到候选触发词词典中,而是经过拆分成单个单词后,再纳入到候选触发词词典中;步骤3、构建候选触发词实例,本专利技术方法设计的候选触发词实例主要包括以下两部分内容:(a)邻居特征,遍历每个句子,如果句中的某个单词为候选触发词词典中的单词,抽取其在句中固定窗口内的单词作为候选触发词实例,这里,本专利技术方法选取的窗口大小为9,包括候选触发词本身以及其前4个单词和后四个单词;(b)蛋白质特征,同时考虑到事件候选触发词和蛋白质通常会成对出现,两者之间有密不可分的联系,所以在构建候选触发词实例时,会将句中蛋白质信息作为人工设计的一个词语表示并加入到构建候选触发词实例中;本专利技术方法所设计的蛋白质信息包括三类:一是,候选触发词在句子中的前s个单词和后s个单词内是否出现蛋白质,二是,出现的所有蛋白质的名称,三是,出现的所有蛋白质的类型;根据语言表达的一般习惯,事件触发词与它较近的蛋白质构成一个事件的可能性较之远处的蛋白质会更大,所以本专利技术方法选取的s等于4,即在句子中距离候选触发词小于4个单词的范围内的蛋白质信息,能够更好地描述触发词隐含的类别信息,从而达到提升事件触发词检测整体性能的目的;步骤4、卷积神经网络模型学习特征,为了学习到候选触发词实例隐含的高层次特征,本专利技术方法利用卷积神经网络来自动训练和学习特征,具体包括以下子步骤:(a)对于每个单句里出现在候选触发词词典中的单词,本专利技术方法都能得到一个由若干个单词组成的序列,称之为一个候选触发词实例;再利用所获得的词向量查找表将候选触发词实例中的每个单词映射成向量,对于在词向量查找表中没有找到对应词向量的单词,本专利技术方法采用随机初始化的方式,从而得到候选触发词实例矩阵其中词向量的维度k为200维;n表示一个候选触发词实例中所含有的单词数量,即为一个候选触发词实例的长度;(b)将所得候选触发词实例矩阵输入到含有多个并行卷积层和池化层的卷积神经网络进行更高层特征的学习,卷积神经网络主要涉及到卷积层、池化层和输出层;卷积层,本专利技术方法利用卷积层中的卷积操作来融合候选触发词实例的邻居特征和蛋白质特征,从而学习到全局特征,本专利技术方法在输入候选触发词实例上使用滑动窗口的思想,窗口内的w个词向量构成矩阵使用共享权重矩阵W进行卷积操作,从而生成一个新特征Ai:Ai=f(W*Xi+b)   (1)式(1)中,W表示共享权重矩阵,X表示词向量矩阵,b表示偏倚项,f表示非线性激活函数,通常选自sigmoid函数或Rectified Linear Units函数中的一种;当滑动窗口w个词向量以1为步长,在长度为n的候选触发词实例序列上滑动时,得到n‑w+1个词向量矩阵,采取如上所述同样的操作,便可产生一个特征向量A:A=[A1,A2,…,An‑w+1]   (2)式(2)中,A1、A2、An‑w+1都是通过公式(1)计算得到的新特征,需要注意的是,该特征向量每一维度的数值都是由同一个共享权重矩阵W操作所得到的,大大减少了模型训练所需的参数个数;池化层,为了确定上述得到的特征向量A中在哪个维度上的数值是最有用的特征,本专利技术方法使用池化操作,即最大化操作,选取该特征向量A的最大数值代表这种特征,即:aj=max{A1,A2,…,An‑w+1}   (3)式(3)中,aj表示这种最有代表性的特征,为了获取多种不同的特征,本专利技术方法采用多个不同的共享权重矩阵进行卷积操作,给定m个不同的共享权重矩阵W,得到一组特征M:M=[a1,a2,…,aj,…,am]   (4)式(...

【技术特征摘要】
1.一种基于特征自动学习的生物医学事件触发词识别方法,其特征在于
包括以下步骤:
步骤1、数据预处理,包括对原始语料的处理以及外部数据资源的引入,
具体包括以下子步骤:
(a)由于语料中跨句子的生物医学事件比例非常小,则在本发明方法中对
生物医学事件触发词的检测是以句子为单位,使用生物医学领域分句工具
GeniaSentenceSplitter对实验语料中所有txt文件的数据进行句子切分;
(b)为了更好地挖掘生物医学事件触发词的语义和语法信息,本发明方法
引入了由领域知识训练得到的词向量查找表,该查找表可以将单词映射成一个
向量,这种向量表示的单词可以便捷地度量单词之间的相似度及其隐含的语义
和语法信息;本发明方法获取的词向量,是在Pubmed上训练所得到的词向量,
每个词向量维度为200维;
步骤2、构建事件触发词词典,采用基于统计的方法构建事件触发词词典,
词典中所有单词都来源于训练集中标注为触发词的单词,经过统计分析,本发
明发现在训练集已标注的触发词中,大多数的触发词是单个单词,而多个单词
组成的触发词数量非常少,对于单个单词形成的触发词,本发明方法不做任何
处理直接纳入到候选触发词词典中;而对于多个单词组成的触发词,本发明方
法考虑到其不利于后期扩展以及增大了方法复杂度的原因,不直接将其纳入到
候选触发词词典中,而是经过拆分成单个单词后,再纳入到候选触发词词典中;
步骤3、构建候选触发词实例,本发明方法设计的候选触发词实例主要包
括以下两部分内容:
(a)邻居特征,遍历每个句子,如果句中的某个单词为候选触发词词典中
的单词,抽取其在句中固定窗口内的单词作为候选触发词实例,这里,本发明
方法选取的窗口大小为9,包括候选触发词本身以及其前4个单词和后四个单

\t词;
(b)蛋白质特征,同时考虑到事件候选触发词和蛋白质通常会成对出现,
两者之间有密不可分的联系,所以在构建候选触发词实例时,会将句中蛋白质
信息作为人工设计的一个词语表示并加入到构建候选触发词实例中;本发明方
法所设计的蛋白质信息包括三类:一是,候选触发词在句子中的前s个单词和
后s个单词内是否出现蛋白质,二是,出现的所有蛋白质的名称,三是,出现
的所有蛋白质的类型;根据语言表达的一般习惯,事件触发词与它较近的蛋白
质构成一个事件的可能性较之远处的...

【专利技术属性】
技术研发人员:王健李虹磊林鸿飞杨志豪张益嘉
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1