基于生物医学文献的蛋白质交互关系数据库构建方法技术

技术编号:12467442 阅读:83 留言:0更新日期:2015-12-09 17:05
本发明专利技术提供了一种基于生物医学文献的蛋白质交互关系数据库构建方法,属于自然语言处理领域。蛋白质交互关系数据库构建方法如下:基于词表示方法的生物医学命名实体识别功能;整合多种有效方法的多阶段蛋白质名称标准化功能;基于多种方法融合的指代消解功能;基于词表示的蛋白质交互关系抽取功能以及基于B/S模式的提供图形交互界面的在线系统和蛋白质交互关系数据库。使用本发明专利技术可以对用户待解析的生物医学文本进行生物医学命名实体的识别、标准化、指代消解和蛋白质交互关系的自动抽取;本发明专利技术为用户提供蛋白质交互关系数据检索的服务和蛋白质交互关系数据库。

【技术实现步骤摘要】

本专利技术属于信息抽取领域,涉及一种基于生物医学文本进行高质量的蛋白质名称 识别、蛋白质名称标准化、指代消解和蛋白质交互关系抽取的方法,具体是指基于词表示的 蛋白质名称识别、融合多种方法的蛋白质名称标准化和指代消解以及蛋白质交互关系抽 取。
技术介绍
构建基于生物医学文献的蛋白质交互关系数据库分为蛋白质名称识别、蛋白质名 称标准化、指代消解和蛋白质交互关系抽取四个步骤。 蛋白质名称识别属于生物医学命名实体识别(Biomedical Named Entity Recognition,Bio-NER),是蛋白质交互关系数据库构建的必要前提。生物医学命名实体 识别是指识别文本中具有特定意义的生物医学实体,目前使用最广泛的基于机器学习方法 的基本过程包括:语料预处理、抽取特征、模型训练、预测。机器学习构建模型的方法主要 包括:隐马尔可夫模型(HMM)、支持向量机模型(SVM)、最大熵马尔可夫模型(MEMM)、条件 随机域模型(CRF)等。例如,ABNER(http ://pages. Cs. wise, edu/ ~bsettles/abner/) 是一个标准的命名实体识别软件工具,其核心基于线性链CRF。为减少人工抽取特征的代 价,半监督学习也被引入到机器学习方法中。李彦鹏等(Incorporating Rich Background Knowledge for Gene Named Entity Classification and Recognition,2009, BMC Bioinformatics)从获得的海量未标注数据中提取有用信息,然后将其作为特征提高监督 学习的效果,在BioCreative II中取得F值为89. 05% 〇 蛋白质名称标准化是指为解决由于物种间的蛋白质歧义、缩写所产生的问题, 给蛋白质确定其在数据库中的唯一 ID的过程。通常情况下,蛋白质名称标准化任务能 够被分解为如下四个子任务:预处理、词典查询、歧义消解和过滤。例如,Hakenberg等 (Gene mention normalization and interaction extraction with context models and sentence motifs · Genome Biology,2008)抽取了丰富的背景知识来构建语义轮廓,然 后使用文本和背景知识向量(语义轮廓)计算相似度,再依据相似度值来区分正确或者错 误的映射关系对。 共指是一种有关现实世界中相同实体的语言表达方式。找到文本中具有共指关系 的共指链(包括照应语和先行词)的过程,被称为指代消解,该任务对蛋白质交互关系的抽 取具有重要提升作用。生物医学领域指代消解方法可以分为三类:基于规则的方法,基于统 计机器学习的方法,以及规则与统计相结合的方法。Souza等(SOUZA J D,NG V. Anaphora resolution in biomedical literature :a hybrid approach. Proceedings of the ACM Conference on Bioinformatics, Computational Biology and Biomedicine,2012 : 113-122.)将照应语划分为关系代词、人称代词、限定性代词和名词短语四类,每一类都采 用了多种方法融合的策略。最终,达到目前最好的结果,在BioNLP-2011开发集上的F值为 67. 4%,测试集上为60. 9%。 蛋白质交互关系抽取(Protein-Protein Interaction Extraction,PPIE)目 的是判断两个蛋白质之间是否存在交互关系,是构建蛋白质交互关系数据库的核心步骤。 蛋白质交互关系可以被看成是一个三元组,Relation〈Proteinl,Protein2,type〉,其中 Proteinl和Protein2表示两个蛋白质实体,type表示关系类型(有关系或者无关系两 类)。基于特征的机器学习方法利用大量的语言特征,如词法、语法、语义等特征来表示 关系实例,从而完成抽取任务。Miwa 等(A rich feature vector for Protein-Protein Interaction extraction from multiple corpora,2009, Proceedings of the 2009Conference on Empirical Methods in Natural Language Processing,121-130) 提出了一种基于丰富特征向量的SVM-CW方法,抽取了词袋特征、最短路径特征和图特征 用于学习。该方法能够同时在多个数据集上进行学习,在五个公共语料AIMed,Biolnfer, HPRD50, ΙΕΡΑ,LLL 上 F 值分别达到了 64·2%,68·3%,74·9%,76·6%,84· 1%。基于核函 数的方法可以利用依存解析树等结构化信息,Miwa等(Protein-protein interaction extraction by leveraging multiple kernels and parsers,2009, International journal of medical informatics,39-46)通过把不同句法解析器的输出结果结合起来, 获得一个多层次的抽取模型,在上述五个语料上F值分别达到了 60. 8%,68. 1%,70. 9%, 71. 7%,80· 1%〇 对于实际的PPIE在线系统,大都采用基于特征的统计机器学习的方法。Kim等 (PIE :an online prediction system for protein-protein interactions from text, 2008,Nucleic Acids Research,411-415)建立了在线蛋白质交互关系抽取系统PIE,可以 让用户以文本输入或上传文件的格式进行访问,系统能识别出文本中的蛋白质名称,并输 出蛋白质交互关系,最后允许用户对系统的分析结果进行评价。该系统借助词汇信息和句 法信息,对文档中的蛋白质交互关系对进行打分并显示。 目前己有的蛋白质交互关系数据库整合的最大障碍就是这些数据库结构和规范 不一致性。建立有统一规范的蛋白质名称数据库、蛋白质交互关系数据库,可以从大量的生 物医学文献中找到对医学相关研究有价值的信息,减少生物医学工作者和数据库管理人员 的工作压力,让生物医学研究人员更专注生物医学本身的研究,提高实验效率,加速研究进 程。
技术实现思路
本专利技术提供了一种基于词表示的蛋白质名称识别、融合多种方法的蛋白质名称标 准化和指代消解以及蛋白质交互关系抽取系统,最终以蛋白质交互关系数据库的形式表 现,建立了有统一规范的蛋白质名称数据库、蛋白质交互关系数据库,提高了现有蛋白质交 互关系抽取的性能。 本专利技术采用如下的技术方案如下:(一)构建基于滑动窗口的输入向量 对句长为N的句子进行实体识别,当滑动窗口大小为M时,对识别后句子中的每个 词依次构造输入向量,将滑动窗口内所有词的输入向量本文档来自技高网
...

【技术保护点】
一种基于生物医学文献的蛋白质交互关系数据库构建方法,其特征在于,步骤如下:(一)构建基于滑动窗口的输入向量对句长为N的句子进行实体识别,当滑动窗口大小为M时,对识别后句子中的每个词依次构造输入向量,将滑动窗口内所有词的输入向量相连作为当前词的输入向量;每个词的输入向量通过word2vec工具所提供的Skip‑gram语言模型在未标记语料上训练得到;(二)构建基于词表示方法的蛋白质名称识别框架蛋白质名称识别中运用到的词特征包括单词、词干、词性特征、组块特征、专业领域特征、构成形态特征、高频词特征、词长特征、词形特征、触发词特征、前后缀特征和拼写特征;采用SVM‑RFE方法进行特征选择,获取优化特征子集;利用未标注语料数据进行半监督学习,用以下三种词表示方法识别蛋白质名称:(1)分布式词表示方法:与构建基于滑动窗口的输入向量方法一致;(2)向量聚类方法:用K‑means算法对词向量进行聚类,K‑means算法是在Word2Vec学习到的词向量基础上进行聚类,使向量空间分布相近的词被聚为同一簇;词特征中的所有词对应的聚类结果形成一个集合构成了向量聚类特征;(3)布朗聚类方法:布朗聚类方法的输入与向量聚类方法的输入相同,经过布朗聚类方法层层迭代,语义相近的词被聚到同一父节点中;与向量聚类特征相同,词特征中所有词对应的布朗聚类结果形成一个集合作为布朗聚类特征;先将三种词表示方法和经过选择的词特征输入SVM模型,然后将三种词表示方法、词特征和SVM模型的最佳分类结果组合作为CRF模型的特征进行序列标注,得识别出的蛋白质;所述的SVM模型的最佳分类结果组合是F值最高的组合;(三)蛋白质名称标准化词典是由原始词典、GDB数据库与OMIM数据库的生物术语库词典组成,原始词典由PubMed数据库中已登录的蛋白质名称相关信息构成;蛋白质名称标准化过程包括预处理、词典查询、歧义消解和过滤;预处理阶段为蛋白质名称识别过程;词典查询阶段:若在预处理阶段,蛋白质名称被识别,在词典中运用精确匹配和模糊匹配结合的查询方法,将蛋白质映射到蛋白质标识符ID,构建完整的候选蛋白质标识符映射列表;歧义消解阶段:通过相似度算法对候选蛋白质标识符映射列表中存在歧义的映射关系进行歧义消解,对于每个存在歧义的映射关系对,使用蛋白质的上下文信息和蛋白质标识符的扩展语义信息进行相似度计算,并对相似度进行排序,选择相似度值最高的作为蛋白质所对应的ID;过滤阶段:对蛋白质名称标准化过程中产生的噪音进行过滤;(四)蛋白质名称指代消解蛋白质名称指代消解用于提高蛋白质交互关系抽取性能,采用融合的方法;指代消解分为两个阶段:第一个阶段是基于规则的候选照应语和先行词的抽取:对句子和名词短语分别编号,用Enju解析器对编号的句子进行解析分句,得到Predicate格式、Stand‑off格式和XML格式三种格式的输出结果,分别从这三种输出结果中获取作为宾语从句、同位语从句、固定句式中的“that”、名词短语、头词和句法解析树;进行基于规则的照应语和先行词的抽取,运用不同规则对抽取出的代词和名词短语进行过滤,规则如下:第二个阶段是为照应语选择合适的先行词,采用基于普通特征的机器学习方法和基于句法解析树的方法相融合的方法进行指代消解;对代词照应语的消解,采用基于普通特征的机器学习方法或基于句法解析树的方法;基于普通特征的机器学习方法抽取照应语的单复数特征、照应语的类型特征、先行词的单复数特征、照应语和候选先行词单复数一致性特征、句子跨度指标和名词短语跨度指标六类特征;对关系代词采用基于句法解析树的方法,把句子转换为宾州树库格式的句法解析树,然后抽取照应语和先行词的上下文信息,包括语法信息和词汇两类特征;最后将上述提取的特征数字化,输入SVM ranker工具包进行指代消解;所述的句子跨度指标为照应语与候选先行词之间间隔的句子个数,所述的名词短语跨度指标为照应语和候选先行词之间间隔的名词短语个数;对名词短语的消解,采用基于普通特征的机器学习方法,除代词照应语消解所使用的六类特征外,还采用了头词匹配特征和先行词包含蛋白质特征,然后将特征数字化,输入SVMranker工具包进行指代消解;(五)蛋白质交互关系抽取蛋白质交互关系抽取分为特征抽取、数字化和交互关系判定三个步骤;特征抽取阶段,抽取词袋、词表示和句法树三类特征:(1)词袋特征1)蛋白质特征P:一个蛋白质交互关系实例涉及到的两个蛋白质名;2)上下文特征C:在窗口中的蛋白质周围的词,不包含蛋白质本身;3)中间词特征B:在两个蛋白质之间的词;4)关键词特征K:通过匹配交互词词典,查询得到使两个蛋白质蕴含直接交互关系的词;(2)词表示特征,与蛋白质名称识别使用的三种词向量特征相同;(3)句法树首先,使用斯坦福解析器解析得到一个句子的完整句法树CT,然后,对...

【技术特征摘要】

【专利技术属性】
技术研发人员:李丽双郑洁琼秦美越蒋振超
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1