一种基于知识表示的生物医学实体链接方法技术

技术编号：21833267 阅读：16 留言：0更新日期：2019-08-10 18:13

本发明专利技术提供一种基于知识表示的生物医学实体链接方法，属于自然语言处理领域。本发明专利技术包括三个步骤：文本预处理、基于生物医学知识库的实体表示学习、基于知识表示的生物医学实体链接。本发明专利技术将生物医学知识库中实体间的同一实体多种变体和不同实体同名的结构信息作为向量空间上的约束，采用自动编码机，通过最小化重构误差学习实体标识符ID的向量表示，将生物医学知识库中的实体结构信息转化为知识表示。同时，本发明专利技术基于知识表示构建了一个生物医学实体链接模型，融合文本语义表示和实体ID表示实现对实体提及的消歧，提升生物医学实体链接的准确性和可靠性。

A Biomedical Entity Linking Method Based on Knowledge Representation

全部详细技术资料下载

【技术实现步骤摘要】
一种基于知识表示的生物医学实体链接方法
本专利技术属于自然语言处理领域，涉及到一种对生物医学文本进行实体链接的方法，特别涉及到基于知识表示和深度神经网络融合的生物医学实体链接。
技术介绍
随着计算机技术和生物技术的高速发展，生物医学领域的文献正在以指数方式增长。面对快速增长的海量数据，研究人员迫切希望揭示蕴含于海量的生物医学文献中的生物医学知识，推动生物医学的发展。这一需求推动了生物医学文本挖掘技术的产生与发展。生物医学命名实体链接(BiomedicalNamedEntityLinking，BioNEL)作为其中的一项重要研究，目的是促进数据的集成(Dataintegration)和重用(Re-use)。BioNEL是指将文本中的生物医学实体(如蛋白质、基因、疾病和药物等)通过知识库映射为唯一标识符(ID)，方便于将文本中的非结构化信息转换为结构化数据。它的本质其实是建立文本中实体提及与知识库中实体之间的映射关系，通过建立文本与知识之间的联系，来帮助生物医学知识库自动填充和实体关系抽取等技术的研究。生物医学命名实体具有如下特点：1)一词多义(多义词)，即相同的词或短语可以表示不同的生物命名实体或概念，如：作为生物实体的CAP就有多种意义如胱氨酸氨基肽酶(cystineaminopeptidase)、衣壳蛋白(capsid)、环化酶相关蛋白(cyclase-associatedprotein)和钙激活蛋白(calciumactivatedprotease-Q9UQC9)等；2)多词一义(同义词)，即同一生物医学实体具有多种变体。如：PTGS2,cycloox...

【技术保护点】
1.一种基于知识表示的生物医学实体链接方法，其特征在于，包括以下步骤：步骤一、文本预处理对于生物医学文本，首先提取出文本中所有待链接的生物医学实体提及，然后通过知识库查找实体提及对应的所有候选实体标识符ID；仅保留排序前五的查找结果作为实体提及的候选ID集合；步骤二、基于生物医学知识库的实体表示学习(2.1)从知识库中抽取同一实体多种变体和不同实体同名的实体结构信息；(2.2)将知识库中实体结构信息作为向量空间上的约束，采用自动编码机对实体提及表示和变体表示进行重构，从而学习实体ID表示；自动编码机是基于两个约束：(i)实体ID表示是其各个变体表示的和，(ii)实体提及表示是其同名变体表示的和；定义实体提及表示为

【技术特征摘要】
1.一种基于知识表示的生物医学实体链接方法，其特征在于，包括以下步骤：步骤一、文本预处理对于生物医学文本，首先提取出文本中所有待链接的生物医学实体提及，然后通过知识库查找实体提及对应的所有候选实体标识符ID；仅保留排序前五的查找结果作为实体提及的候选ID集合；步骤二、基于生物医学知识库的实体表示学习(2.1)从知识库中抽取同一实体多种变体和不同实体同名的实体结构信息；(2.2)将知识库中实体结构信息作为向量空间上的约束，采用自动编码机对实体提及表示和变体表示进行重构，从而学习实体ID表示；自动编码机是基于两个约束：(i)实体ID表示是其各个变体表示的和，(ii)实体提及表示是其同名变体表示的和；定义实体提及表示为变体表示为实体ID表示为v(i,j)是第i个实体提及m(i)和第j个实体IDs(j)共有的变体；则自动编码机的两个约束可用如下公式表示：s(j)＝∑iv(i,j)m(i)＝∑jv(i,j)自动编码机由两部分组成，即编码器和解码器；编码时，编码器按照实体提及→变体→实体ID的顺序进行；其中，实体提及表示m(i)初始化为其组成单词的预训练词表示的平均值，变体表示v(i,j)通过引入一个对角矩阵对实体提及表示m(i)进行分解获得；然后，由对应变体表示的加和获得实体ID表示s(j)；编码过程的公式如下：s(j)＝∑iv(i,j)＝∑iE(i,j)m(i)E(i,j)是一个对角矩阵，满足条件∑jE(i,j)＝In，其中In是一个单位矩阵；解码时，解码器按照实体ID→变体→实体提及的顺序进行；通过引入另一个对角矩阵将编码获得的实体ID表示s(j)分解为各个变体表示然后再由同名变体表示的加和重构实体提及表示解码过程的公式如下：对角矩阵同样满足条件∑iD(j,i)＝In，其中In是一个单位矩阵；(2.3)定义一个重构误差函数来训练自动编码机的参数，其公式为：该重构误差函数由两部分组成，一个是要求解码出的实体提及表示m(i)与输入的提及表示m(i)对齐，即∑j(D(j,i)∑iE(i,j)m(i))≈m(i)；另一个是要求解码器得到的变体表示与编码器得到的变体表示v(i,j)对齐，即E(i,j)m(i)≈D(j,i)s(j)；通过最小化该重构误差函数，使得实体结构信息被嵌入到实体ID中，得到学习后的实体ID表示；α,β为权重系数，且满足α+β＝1，用于控制两部分对齐的平衡；步骤三、基于知识表示的生物医学实体链接利用步骤二学习获得的实体ID表示，对步骤一抽取出的生物医学实体提及进行消歧，获得在特定上下文中实体...

【专利技术属性】
技术研发人员：周惠巍，宁时贤，刘壮，郎成堃，刘喆，雷弼尊，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人