一种基于知识表示的生物医学实体链接方法技术

技术编号:21833267 阅读:16 留言:0更新日期:2019-08-10 18:13
本发明专利技术提供一种基于知识表示的生物医学实体链接方法,属于自然语言处理领域。本发明专利技术包括三个步骤:文本预处理、基于生物医学知识库的实体表示学习、基于知识表示的生物医学实体链接。本发明专利技术将生物医学知识库中实体间的同一实体多种变体和不同实体同名的结构信息作为向量空间上的约束,采用自动编码机,通过最小化重构误差学习实体标识符ID的向量表示,将生物医学知识库中的实体结构信息转化为知识表示。同时,本发明专利技术基于知识表示构建了一个生物医学实体链接模型,融合文本语义表示和实体ID表示实现对实体提及的消歧,提升生物医学实体链接的准确性和可靠性。

A Biomedical Entity Linking Method Based on Knowledge Representation

【技术实现步骤摘要】
一种基于知识表示的生物医学实体链接方法
本专利技术属于自然语言处理领域,涉及到一种对生物医学文本进行实体链接的方法,特别涉及到基于知识表示和深度神经网络融合的生物医学实体链接。
技术介绍
随着计算机技术和生物技术的高速发展,生物医学领域的文献正在以指数方式增长。面对快速增长的海量数据,研究人员迫切希望揭示蕴含于海量的生物医学文献中的生物医学知识,推动生物医学的发展。这一需求推动了生物医学文本挖掘技术的产生与发展。生物医学命名实体链接(BiomedicalNamedEntityLinking,BioNEL)作为其中的一项重要研究,目的是促进数据的集成(Dataintegration)和重用(Re-use)。BioNEL是指将文本中的生物医学实体(如蛋白质、基因、疾病和药物等)通过知识库映射为唯一标识符(ID),方便于将文本中的非结构化信息转换为结构化数据。它的本质其实是建立文本中实体提及与知识库中实体之间的映射关系,通过建立文本与知识之间的联系,来帮助生物医学知识库自动填充和实体关系抽取等技术的研究。生物医学命名实体具有如下特点:1)一词多义(多义词),即相同的词或短语可以表示不同的生物命名实体或概念,如:作为生物实体的CAP就有多种意义如胱氨酸氨基肽酶(cystineaminopeptidase)、衣壳蛋白(capsid)、环化酶相关蛋白(cyclase-associatedprotein)和钙激活蛋白(calciumactivatedprotease-Q9UQC9)等;2)多词一义(同义词),即同一生物医学实体具有多种变体。如:PTGS2,cyclooxygenase-2,prostaglandin-endoperoxidesynthase2,COX2均表示前列腺素过氧化物合成酶。除此之外,生物医学命名实体的缩写被大量使用且不规范,命名方式复杂多样没有统一标准,这都使得生物医学命名实体链接变得困难。目前,解决BioNEL的方法主要有基于词典的方法,基于向量的方法,基于传统机器学习的方法,以及基于深度学习的方法。基于词典的方法是通过字符匹配和一些启发式规则从文本中识别词典中的生物医学实体ID。简单的字符匹配方法可以获得较高的精确率,但是召回率极低。这种情况大多跟上述生物医学命名实体的特点有关。同时,此方法严重依赖词典的完整性和规则的设计,难以被应用于新的领域。基于向量的方法是将实体提及(EntityMention)和所有候选实体映射到公共向量空间,然后对每个候选实体定义一个评分度量进行排序(如余弦相似度、欧氏距离、编辑距离、主题相似度、实体流行度等),选取排序第一的候选作为实体提及的链接结果。Leaman等人(DNorm:diseasenamenormalizationwithpairwiselearningtorank,2013,Bioinformatics,29(22):2909-2917)提出DNorm系统,采用向量空间模型来表示医学实体,并使用相似性矩阵来衡量实体提及和候选实体的相似程度。他们在NCBI疾病数据集上取得了0.782的F值,高于基于词典的方法。基于传统机器学习的方法根据上下文语境对候选实体ID进行分类,其目的是对数据的分布进行统计,拟合出数据趋势走向。常用的机器学习模型包括:条件随机域模型(CRF)、支持向量机模型(SVM)、隐马尔可夫模型(HMM)、最大熵模型(ME)等。但是,基于传统机器学习的方法依赖于复杂的特征工程,需要对数据进行深度探索性分析,根据丰富的领域知识和长期经验来设计和确定模型的最优特征集合,人工成本昂贵且耗时。同时,抽取的特征表示均采用独热(one-hot)的高维稀疏表示方法,难以捕捉文本蕴含的深层语义信息。基于深度学习的方法克服了对特征工程的依赖,利用多层神经网络构建数据的深层次抽象特征表示。深度学习的代表性模型主要有自动编码机、RNN、LSTM、CNN等。Li等(CNN-basedrankingforbiomedicalentitynormalization,2017,BMCbioinformatics,18(11):385)将生物医学实体链接任务视为一个排序问题,利用卷积神经网络对候选的语义信息及其形态信息进行建模,然后计算所有<实体,候选>对的相似度得分并排序,得分最高的候选即作为链接结果。他们的模型在ShARe/CLEF和NCBI数据集上取得了较好的性能。实体所在的上下文是消歧的关键,正如分布式假说的想法“词的语义由其上下文决定”。上述方法大都着眼于文本数据,通过自动或半自动的方式挖掘有效特征来提高生物医学实体链接的性能。但相比于其它领域,生物医学实体链接需要有力的知识资源支撑,而大量的隐含知识难以在样本数据中进行体现。这些特征数据背后的关联逻辑隐藏在丰富的生物医学词典、知识库(KnowledgeBase,KB)等语义网络中,比如蛋白质知识库UniProt,基因知识库NCBIGene等。他们包含丰富的实体及其结构信息,能够为实体链接任务提供知识支持。然而这些知识在生物医学实体链接系统中尚未得到充分应用。融合实体结构信息和实体语义信息,开展面向大规模生物医学知识库的知识表示学习研究,对于生物医学实体链接具有重要的理论意义和实际应用价值。
技术实现思路
为利用知识库丰富的实体结构信息帮助克服生物医学实体一词多义和多词一义的难题,本专利技术提供了一种面向实体结构信息的表示学习方法和一种基于知识表示的生物医学实体链接方法,融合了知识表示与文本语义表示,提高现有生物医学实体链接的性能。本专利技术的技术方案:一种基于知识表示的生物医学实体链接方法,该方法包括三部分:文本预处理、基于知识库的实体表示学习、基于知识表示的生物医学实体链接。具体步骤如下:步骤一、文本预处理对于生物医学文本,首先提取出文本中所有待链接的生物医学实体提及,然后通过知识库查找实体提及对应的所有候选实体标识符(ID)。为了优化内存和运行时间,仅保留排序前五的查找结果作为实体提及的候选ID集合。步骤二、基于生物医学知识库的实体表示学习知识库中包含了丰富的实体及其结构信息,如同一实体多种变体和不同实体同名。本专利技术将这些实体结构信息作为向量空间上的约束,采用自动编码机对实体提及表示和变体表示进行重构,从而学习实体ID表示。自动编码机是基于如下两个约束:(i)实体ID表示是其各个变体表示的和;(ii)实体提及表示是其同名变体表示的和。定义实体提及表示为变体表示为实体ID表示为v(i,j)是第i个实体提及m(i)和第j个实体IDs(j)共有的变体。则上述自动编码机的两个基本约束可用如下公式表示:s(j)=∑iv(i,j)m(i)=∑jv(i,j)该自动编码机由两部分组成,即编码器和解码器。编码时,编码器按照实体提及→变体→实体ID的顺序进行。其中,实体提及表示m(i)初始化为其组成单词的预训练词表示的平均值,变体表示v(i,j)通过引入一个对角矩阵对实体提及表示m(i)进行分解获得。然后,由对应变体表示的加和获得实体ID表示s(j)。编码过程的公式如下:s(j)=∑iv(i,j)=∑iE(i,j)m(i)E(i,j)是一个对角矩阵,满足条件∑jE(i,j)=In,其中In是一个单位矩阵。解码时本文档来自技高网
...

【技术保护点】
1.一种基于知识表示的生物医学实体链接方法,其特征在于,包括以下步骤:步骤一、文本预处理对于生物医学文本,首先提取出文本中所有待链接的生物医学实体提及,然后通过知识库查找实体提及对应的所有候选实体标识符ID;仅保留排序前五的查找结果作为实体提及的候选ID集合;步骤二、基于生物医学知识库的实体表示学习(2.1)从知识库中抽取同一实体多种变体和不同实体同名的实体结构信息;(2.2)将知识库中实体结构信息作为向量空间上的约束,采用自动编码机对实体提及表示和变体表示进行重构,从而学习实体ID表示;自动编码机是基于两个约束:(i)实体ID表示是其各个变体表示的和,(ii)实体提及表示是其同名变体表示的和;定义实体提及表示为

【技术特征摘要】
1.一种基于知识表示的生物医学实体链接方法,其特征在于,包括以下步骤:步骤一、文本预处理对于生物医学文本,首先提取出文本中所有待链接的生物医学实体提及,然后通过知识库查找实体提及对应的所有候选实体标识符ID;仅保留排序前五的查找结果作为实体提及的候选ID集合;步骤二、基于生物医学知识库的实体表示学习(2.1)从知识库中抽取同一实体多种变体和不同实体同名的实体结构信息;(2.2)将知识库中实体结构信息作为向量空间上的约束,采用自动编码机对实体提及表示和变体表示进行重构,从而学习实体ID表示;自动编码机是基于两个约束:(i)实体ID表示是其各个变体表示的和,(ii)实体提及表示是其同名变体表示的和;定义实体提及表示为变体表示为实体ID表示为v(i,j)是第i个实体提及m(i)和第j个实体IDs(j)共有的变体;则自动编码机的两个约束可用如下公式表示:s(j)=∑iv(i,j)m(i)=∑jv(i,j)自动编码机由两部分组成,即编码器和解码器;编码时,编码器按照实体提及→变体→实体ID的顺序进行;其中,实体提及表示m(i)初始化为其组成单词的预训练词表示的平均值,变体表示v(i,j)通过引入一个对角矩阵对实体提及表示m(i)进行分解获得;然后,由对应变体表示的加和获得实体ID表示s(j);编码过程的公式如下:s(j)=∑iv(i,j)=∑iE(i,j)m(i)E(i,j)是一个对角矩阵,满足条件∑jE(i,j)=In,其中In是一个单位矩阵;解码时,解码器按照实体ID→变体→实体提及的顺序进行;通过引入另一个对角矩阵将编码获得的实体ID表示s(j)分解为各个变体表示然后再由同名变体表示的加和重构实体提及表示解码过程的公式如下:对角矩阵同样满足条件∑iD(j,i)=In,其中In是一个单位矩阵;(2.3)定义一个重构误差函数来训练自动编码机的参数,其公式为:该重构误差函数由两部分组成,一个是要求解码出的实体提及表示m(i)与输入的提及表示m(i)对齐,即∑j(D(j,i)∑iE(i,j)m(i))≈m(i);另一个是要求解码器得到的变体表示与编码器得到的变体表示v(i,j)对齐,即E(i,j)m(i)≈D(j,i)s(j);通过最小化该重构误差函数,使得实体结构信息被嵌入到实体ID中,得到学习后的实体ID表示;α,β为权重系数,且满足α+β=1,用于控制两部分对齐的平衡;步骤三、基于知识表示的生物医学实体链接利用步骤二学习获得的实体ID表示,对步骤一抽取出的生物医学实体提及进行消歧,获得在特定上下文中实体...

【专利技术属性】
技术研发人员:周惠巍宁时贤刘壮郎成堃刘喆雷弼尊
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1