一种基于特征自动学习的生物医学事件触发词识别方法技术

技术编号：14551884 阅读：141 留言：0更新日期：2017-02-05 01:02

本发明专利技术涉及生物医学技术领域，一种基于特征自动学习的生物医学事件触发词识别方法，包括以下步骤：1、数据预处理，2、构建事件触发词词典，3、构建候选触发词实例，4、卷积神经网络模型学习特征，5、神经网络模型训练，6、事件触发词分类。本发明专利技术方法具有以下优点：一是，简化了对数据的复杂预处理，省去了人工进行特征设计的繁琐步骤；二是，引入了领域知识，有效地利用了大量未标注语料等外部资源；三是，使用卷积神经网络进行特征的自动学习，不仅减少了人工干预，而且能够挖掘和探索到更深层次的句子级别特征，并通过融合局部特征，发现了隐含的全局特征，有助于识别触发词类别；四是，本发明专利技术方法在MLEE语料上得到了较好的实验结果，事件触发词检测的整体性能有所提高。

A method of recognizing biomedical event trigger words based on feature automatic learning

The present invention relates to the field of biomedical technology, a biomedical event trigger word identification method based on the feature of automatic learning, which comprises the following steps: 1, data preprocessing, 2 to construct the trigger word dictionary, 3, construct the candidate trigger word examples, 4, convolutional neural network model learning characteristics, 5, neural network model training. 6, event trigger word classification. The method of the invention has the following advantages: first, to simplify the complexity of the data preprocessing, eliminating the tedious steps of artificial feature design; two, was introduced to the field of knowledge, effective use of unlabeled examples and other external resources; three, automatic learning to use convolution neural network characteristics, not only reduce the manual intervention, but also to explore the deeper sentence level features, and through the integration of local features and global features found hidden, helps to identify the trigger word categories; the four is the method of the invention has good results on the MLEE data, the overall performance of the detection of event trigger words have to improve.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于特征自动学习的生物医学事件触发词识别方法，属于生物医学文本挖掘

技术介绍
在生物医学领域，如何从蕴含大量文本的数据库中抽取出有用的信息，对于人类医学和生命科学的发展有着重要指导意义。鉴于此，越来越多的科学研究者投入到了生物医学文本的知识挖掘研究中，例如生物领域的命名实体识别、蛋白质与蛋白质之间的关系抽取以及药物与药物之间的关系抽取等研究方向。但是这对于挖掘生物医学文本中隐藏的多元关系仍是不够的，因此专注于蛋白质、基因等生物实体之间的动态作用或关系抽取的生物医学事件抽取任务引起了人们的广泛关注。生物医学文本的事件抽取实质上就是信息抽取在生物医学领域的一个重要应用，已经成为信息抽取技术的一个有力工具，正在日益影响着生物医学自然语言处理的发展方向。生物医学领域内的事件指的是生物分子之间的交互作用以及作用后产生的结果，事件抽取目的在于从海量的生物医学文献中抽取出如事件主题、事件类型和事件触发词等生物事件的语义与角色信息。例如，给定语料中的一个句子，“LIFinducedadose-dependentincreaseinp24antigenproductioninthechronicallyinfectedpromonocytic...”，该句包含两个事件，一个是基因表达事件，触发词为“production”，对应事件元素为“antigen”；另一个为正向调控事件，触发词为“incr...
一种基于特征自动学习的生物医学事件触发词识别方法

【技术保护点】
一种基于特征自动学习的生物医学事件触发词识别方法，其特征在于包括以下步骤：步骤1、数据预处理，包括对原始语料的处理以及外部数据资源的引入，具体包括以下子步骤：(a)由于语料中跨句子的生物医学事件比例非常小，则在本专利技术方法中对生物医学事件触发词的检测是以句子为单位，使用生物医学领域分句工具Genia Sentence Splitter对实验语料中所有txt文件的数据进行句子切分；(b)为了更好地挖掘生物医学事件触发词的语义和语法信息，本专利技术方法引入了由领域知识训练得到的词向量查找表，该查找表可以将单词映射成一个向量，这种向量表示的单词可以便捷地度量单词之间的相似度及其隐含的语义和语法信息；本专利技术方法获取的词向量，是在Pubmed上训练所得到的词向量，每个词向量维度为200维；步骤2、构建事件触发词词典，采用基于统计的方法构建事件触发词词典，词典中所有单词都来源于训练集中标注为触发词的单词，经过统计分析，本专利技术发现在训练集已标注的触发词中，大多数的触发词是单个单词，而多个单词组成的触发词数量非常少，对于单个单词形成的触发词，本专利技术方法不做任何处理直接纳入到候选触发词词典...

【技术特征摘要】
1.一种基于特征自动学习的生物医学事件触发词识别方法，其特征在于
包括以下步骤：
步骤1、数据预处理，包括对原始语料的处理以及外部数据资源的引入，
具体包括以下子步骤：
(a)由于语料中跨句子的生物医学事件比例非常小，则在本发明方法中对
生物医学事件触发词的检测是以句子为单位，使用生物医学领域分句工具
GeniaSentenceSplitter对实验语料中所有txt文件的数据进行句子切分；
(b)为了更好地挖掘生物医学事件触发词的语义和语法信息，本发明方法
引入了由领域知识训练得到的词向量查找表，该查找表可以将单词映射成一个
向量，这种向量表示的单词可以便捷地度量单词之间的相似度及其隐含的语义
和语法信息；本发明方法获取的词向量，是在Pubmed上训练所得到的词向量，
每个词向量维度为200维；
步骤2、构建事件触发词词典，采用基于统计的方法构建事件触发词词典，
词典中所有单词都来源于训练集中标注为触发词的单词，经过统计分析，本发
明发现在训练集已标注的触发词中，大多数的触发词是单个单词，而多个单词
组成的触发词数量非常少，对于单个单词形成的触发词，本发明方法不做任何
处理直接纳入到候选触发词词典中；而对于多个单词组成的触发词，本发明方
法考虑到其不利于后期扩展以及增大了方法复杂度的原因，不直接将其纳入到
候选触发词词典中，而是经过拆分成单个单词后，再纳入到候选触发词词典中；
步骤3、构建候选触发词实例，本发明方法设计的候选触发词实例主要包
括以下两部分内容：
(a)邻居特征，遍历每个句子，如果句中的某个单词为候选触发词词典中
的单词，抽取其在句中固定窗口内的单词作为候选触发词实例，这里，本发明
方法选取的窗口大小为9，包括候选触发词本身以及其前4个单词和后四个单

\t词；
(b)蛋白质特征，同时考虑到事件候选触发词和蛋白质通常会成对出现，
两者之间有密不可分的联系，所以在构建候选触发词实例时，会将句中蛋白质
信息作为人工设计的一个词语表示并加入到构建候选触发词实例中；本发明方
法所设计的蛋白质信息包括三类：一是，候选触发词在句子中的前s个单词和
后s个单词内是否出现蛋白质，二是，出现的所有蛋白质的名称，三是，出现
的所有蛋白质的类型；根据语言表达的一般习惯，事件触发词与它较近的蛋白
质构成一个事件的可能性较之远处的...

【专利技术属性】
技术研发人员：王健，李虹磊，林鸿飞，杨志豪，张益嘉，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人