基于上下文向量图核的生物医学实体关系分类方法技术

技术编号:21343450 阅读:32 留言:0更新日期:2019-06-13 22:26
基于上下文向量图核的生物医学实体关系分类方法,属于生物医学文本挖掘和数据挖掘技术领域,解决生物医学文章中生物医学实体关系分类的问题。本发明专利技术方法包括S1、对生物医学文献进行文本处理;S2、句子的结构化表示;S3、构建上下文向量;S4、构建基于上下文向量的等价类划分;S5、基于等价类的上下文向量图核及特征提取;S6、归一化特征的权值;S7、构建生物医学实体关系分类模型;S8、预测生物医学文献中的生物医学实体关系。效果是能高效地对小语料长复杂句居多的生物医学文章中生物医学实体关系进行分类。

Classification of Biomedical Entity Relations Based on Context Vector Graph Kernel

The classification method of biomedical entity relations based on context vector graph core belongs to the field of biomedical text mining and data mining technology, and solves the problem of biomedical entity relations classification in biomedical articles. The method of the invention includes S1, text processing of biomedical literature; structured representation of S2 and sentence; S3, context vector construction; S4, equivalent class division based on context vector construction; S5, context vector map core and feature extraction based on equivalent class; S6, weight of normalized feature; S7, construction of biomedical entity relationship classification model; S8, prediction of biomedicine. The biomedical entity relationship in the literature. The effect is to efficiently classify the biomedical entity relationships in biomedical articles with long and complex sentences in small corpus.

【技术实现步骤摘要】
基于上下文向量图核的生物医学实体关系分类方法
本专利技术涉及生物医学文本挖掘和数据挖掘
,尤其是基于上下文向量图核的生物医学实体关系分类方法。
技术介绍
生物医学实体间关系抽取是生物医学领域最基本最核心的任务。它不仅有助于构建生物医学相关数据库,而且对知识图谱的构建来说,也是最基本最关键的环节之一。海量的生物医学文献中蕴含着丰富的以及前沿的生物医学知识,是生物医学领域相关研究者重要的知识宝库,实践表明,应用文本挖掘技术可以从这座知识宝库中自动高效的提取有用的知识,但现存方法的性能和应用还存在着诸多不足。由于很多生物医学领域实体关系分类都是新兴的关系提取任务,只在句子上进行了相关标注,而且标注语料相对较少,不像通用领域存在大量人工标注过的数据。传统的机器学习方法如SVM等对数据规模要求不高,并且分类速度快,尤其图核在基于SVM的关系提取任务里显示了极大的优势性。因此,在规模有限的生物医学语料上往往更具优越的性能。针对科学文献中长文本上关系提取性能低下问题,本方法从句子的图表示出发,以充分利用上下文信息为目的,提出了基于上下文向量图核的方法,用于生物医学实体关系分类。
技术实现思路
本专利技术的目的是提供基于上下文向量图核的生物医学实体关系分类方法,基于句子文本和句子的依存解析,自动学习医学文本中蕴含的实体间关系特征,从而对生物医学文献中已标注生物医学实体间关系进行更为准确且有效地分类。本专利技术解决现有技术问题所采用的技术方案:基于上下文向量图核的生物医学实体关系分类方法,包括以下步骤:S1、对生物医学文献进行文本处理:利用文本处理技术对句子进行基本文本处理,其处理方法为:A1、过滤带有一个生物医学实体或两个实体具有同样符号表示的句子;A2、为了减少特征空间的稀疏性,用特殊符号“zhnum”代替不是生物医学实体子串的数字串;A3、为了突出句子中实体周围的句法和依存关系,对包括共享前缀或者后缀的由多个单词组成的实体,用“#”连接它们形成一个不带空格的字符串代替相应的实体出现;A4、所有的生物医学实体用BIOENTI*代替,*表示0,1,2,其中BIOENTI1和BIOENTI2表示欲分析关系的实体,BIOENTI0表示其它生物医学实体;A5、利用斯坦福依存解析器Stanfordparser在预处理后的句子上进行依存解析,从而得到了句子的依存解析结果,即获得了句子中符号的文本、PoS标记以及符号间的依存关系;S2、句子的结构化表示:对于每一包含候选生物医学实体对的句子实例,可以表示成一个有向的结点带标签的带权图,如图2所示,其中包括依存子图和线性子图两个子图;对于依存分析结果中的每一个符号和依存关系,分别创建对应的结点和相关联的标签集;在依存子图中,每个符号结点用单词的文本和词性PoS作为标签,每个依存结点用依存类型作标签;例如,标签“effects/NNs”表示符号结点的文本是“effects”,词性是“NNs”,标签“amod”表示符号结点“additive”和“effects”间的依存类型;此外,候选实体间最短路径上的点和边相较于图中其他点和边更能体现实体间的语义关系,于是,利用迪杰斯特拉(Dijkstra)算法求出候选实体间的最短依存路径,在图中最短路径上的点和边用黑体表示,而且,最短依存路径上所有点的词性PoS标签或者依存类型被特殊标记上前缀“sp_”;在线性子图中,对于句中的每个符号创建了带有标签的第二个结点;结点标签除了包括符号的文本text和词性PoS标记,每个单词特殊地用位置前缀“B_”、“M_”或者“A_”标记,表示其出现在两个候选实体的前中后的哪一个位置;此外,为了显示不同类型边对于候选实体间关系的重要程度,每条边可以被赋予不同的权值;最后,一个符号字典保存了图中的所有标签;S3、构建上下文向量:根据句子的图表示构建上下文向量,其处理方法如下:对于顶点带标签的图G=(V,ε,L),V表示顶点的有限集,表示边或链接的有限集,L表示标签或属性的有限集;定义1上下文向量:给定一个点vx∈V和它的邻接点adj(vx)={vadj_1,vadj_2,K,vadj_m},在对点vx的邻接点标签第i次迭代后,它的标签可以用一个有序的向量lvi(vx)表示,如公式(1)所示:上式中l(vx)表示点vx的标签;当i=0时,lv0(vx)的元素由点vx自身标签里的元素组成;然后,当i=1时,公式(1)被用来迭代的计算lvi(vx),它的元素由vx的所有邻接点的上下文向量lvi-1(vadj_k)里的元素组成,其中vadj_k∈adj(vx)表示vx的第k个邻接点,m是vx邻接点的个数;lvi(vx)里的所有元素按字典序排序;图3显示了在顶点带标签的图中上下文向量计算的一个例子,其中图3(A)是图2的一部分;为了随后计算过程描述的方便,图3(B)中的别名将代替每个顶点的标签;每个顶点上下文向量的计算显示在图3(C)中;最后,计算出的每个上下文向量将加到特征字典里;以顶点D为例,它的标签“DRUG2/NNS”用别名L3代替,开始时即i=0时它的上下文向量为lv0(D)=[L3];第一次迭代时,它的上下文向量lv1(D)由它所有的邻接点(B,H)的第0次上下文向量(lv0(B),lv0(H))组成,即lv1(D)=[L4,L6];按照同样的方式可以完成依存子图和线性子图上其他点的迭代;点的上下文向量lvi(vx)是它所有邻域顶点的迭代序列,它不仅隐含了顶点周围的拓扑结构信息并且传递了非邻接点信息;就上下文向量在两个子图中的含义来看,它体现的是依存子图中的功能子团或结构子团,线性子图中一个单词前后的符号对;通过迭代地应用公式(1),点vx(vx∈V)的标签形成了一个向量序列lv(vx)=[lv0(vx)),lv1(vx),lv2(vx),K];由此,一个点被细分成多个向量,从而使每个点的上下文信息得以充分利用;S4、构建基于上下文向量的等价类:对于步骤S3中得到的每一轮迭代上下文向量,进行等价类的划分;定义2基于上下文向量的等价类划分:如果V是顶点带标签图中所有点的集合,“有同样的上下文向量”是V上的一个等价关系~。元素的等价类是与有关系~的V中元素的集合,记为其中,x表示图中与元素有~关系的顶点,顶点vx的标签被向量lvi(vx)代替后,图G中顶点的集合符合等价关系~。通过公式(2)计算所有点的等价类后,符合等价关系~的顶点被分在同一等价类中;图3(C)显示了等价类的划分过程;G0中的两个点(C,E)有同样的上下文向量lv0(vx),于是,它们对应的等价类为[C]=[E]={C,E};因此,这两个点被划分到同一组;第一次划分后,9个点被分成6组;划分的组数小于顶点的个数;进一步,在每次迭代后,可以定义一个新的图Gh=(V,ε,Lh,Ch),其中h是迭代的次数,Ch是等价类分割后得到的组数,Lh是第h次迭代后所有点生成的上下文向量的集合,它的定义如公式(3)所示:Lh(Gh)={lvh(v1),lvh(v2),K,lvh(vi),K,lvh(vn)}vi∈V(3)由于迭代的进行,向量表示由近及远地精确地捕获了点周围直接和间接的上下文信息;从而,一个图形成了层次图序列G=(G0,G1,...)。迭代过程可以由两本文档来自技高网...

【技术保护点】
1.基于上下文向量图核的生物医学实体关系分类方法,其特征在于,包括以下步骤:S1、对生物医学文献进行文本处理;S2、句子的结构化表示;S3、构建上下文向量;S4、构建基于上下文向量的等价类划分;S5、基于等价类的上下文向量图核及特征提取;S6、归一化特征的权值;S7、构建生物医学实体关系分类模型;S8、预测生物医学文献中的生物医学实体关系。

【技术特征摘要】
1.基于上下文向量图核的生物医学实体关系分类方法,其特征在于,包括以下步骤:S1、对生物医学文献进行文本处理;S2、句子的结构化表示;S3、构建上下文向量;S4、构建基于上下文向量的等价类划分;S5、基于等价类的上下文向量图核及特征提取;S6、归一化特征的权值;S7、构建生物医学实体关系分类模型;S8、预测生物医学文献中的生物医学实体关系。2.根据权利要求1所述的基于上下文向量图核的生物医学实体关系分类方法,其特征在于,所述的步骤:S1、对生物医学文献进行文本处理:利用句法依存解析器在文本预处理后的句子上进行依存解析,获得句子中符号的文本、PoS标记以及符号间的依存关系;S2、句子的结构化表示:对于依存分析结果中的每一个符号和依存关系,分别创建对应的结点和相关联的标签集;每个符号结点用单词的文本和词性PoS作为标签,每个依存结点用依存类型作标签,利用最短距离算法求出候选实体间的最短依存路径,并分别为句子带权图中的边进行赋权,构建句子的图表示;S3、构建上下文向量:根据句子的图表示G=(V,ε,L),V表示顶点的有限集,表示边或链接的有限集,L表示标签或属性的有限集,构建上下文向量;S4、构建基于上下文向量的等价类划分:对于步骤S3中每一轮迭代得到的上下文向量,进行等价类的划分;S5、基于等价类的上下文向量图核及特征提取:划分出等价类后,形成上下文向量对,利用上下文图核获得所有上下文向量对和其权值,完成特征提取;S6、归一化特征的权值:对于每一对候选生物医学实体实例,利用步骤S5中方法获得的所有上下文向量对和权值,所述上下文向量对称为特征,其权值利用公式进行归一化处理,其中fi和wi分别表示归一化前后的权值,n为从文本中提取的一对候选实体具有的特征数;S7、构建生物医学实体关系分类模型:使用SVM分类方法,对特征进行有监督学习建模从而得到分类模型;S8、预测生物医学文献中的生物医学实体关系:利用步骤S1-S6得到待预测语料的特征,利用步骤S7中的已训练好的分类模型,对待预测语料的特征进行预测,对于每对候选实例在各个类别上的概率值,其中概率值最大的那一类即为候选实例对应的类别标签,从而得到生物医学实体关系类型。3.根据权利要求2所述的基于上下文向量图核的生物医学实体关系分类方法,其特征在于步骤S1中,所述的文本预处理表示为:过滤带有一个生物医学实体或两个实体具有同样符号表示的句子,用字符替代不是生物医学实体子串的数字串;对包括共享前缀或者后缀的由多个单词组成的实体,用“#”连接它们形成一个不带空格的字符串代替相应的实体出现;所有的生物医学实体用BIOENTI*代替,*表示0,1,2,其中BIOENTI1和BIOENTI2表示分析关系的实体,BIOENTI0表示其它生物医学实体。4.根据权利要求2所述的基于上下文向量图核的生物医学实体关系分类方法,其特征在于步骤S3中,所述的构建上下文向量表示为:给定一个...

【专利技术属性】
技术研发人员:郑巍林鸿飞
申请(专利权)人:大连交通大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1