The classification method of biomedical entity relations based on context vector graph core belongs to the field of biomedical text mining and data mining technology, and solves the problem of biomedical entity relations classification in biomedical articles. The method of the invention includes S1, text processing of biomedical literature; structured representation of S2 and sentence; S3, context vector construction; S4, equivalent class division based on context vector construction; S5, context vector map core and feature extraction based on equivalent class; S6, weight of normalized feature; S7, construction of biomedical entity relationship classification model; S8, prediction of biomedicine. The biomedical entity relationship in the literature. The effect is to efficiently classify the biomedical entity relationships in biomedical articles with long and complex sentences in small corpus.
【技术实现步骤摘要】
基于上下文向量图核的生物医学实体关系分类方法
本专利技术涉及生物医学文本挖掘和数据挖掘
,尤其是基于上下文向量图核的生物医学实体关系分类方法。
技术介绍
生物医学实体间关系抽取是生物医学领域最基本最核心的任务。它不仅有助于构建生物医学相关数据库,而且对知识图谱的构建来说,也是最基本最关键的环节之一。海量的生物医学文献中蕴含着丰富的以及前沿的生物医学知识,是生物医学领域相关研究者重要的知识宝库,实践表明,应用文本挖掘技术可以从这座知识宝库中自动高效的提取有用的知识,但现存方法的性能和应用还存在着诸多不足。由于很多生物医学领域实体关系分类都是新兴的关系提取任务,只在句子上进行了相关标注,而且标注语料相对较少,不像通用领域存在大量人工标注过的数据。传统的机器学习方法如SVM等对数据规模要求不高,并且分类速度快,尤其图核在基于SVM的关系提取任务里显示了极大的优势性。因此,在规模有限的生物医学语料上往往更具优越的性能。针对科学文献中长文本上关系提取性能低下问题,本方法从句子的图表示出发,以充分利用上下文信息为目的,提出了基于上下文向量图核的方法,用于生物医学实体关系分类。
技术实现思路
本专利技术的目的是提供基于上下文向量图核的生物医学实体关系分类方法,基于句子文本和句子的依存解析,自动学习医学文本中蕴含的实体间关系特征,从而对生物医学文献中已标注生物医学实体间关系进行更为准确且有效地分类。本专利技术解决现有技术问题所采用的技术方案:基于上下文向量图核的生物医学实体关系分类方法,包括以下步骤:S1、对生物医学文献进行文本处理:利用文本处理技术对句子进行基本文本处 ...
【技术保护点】
1.基于上下文向量图核的生物医学实体关系分类方法,其特征在于,包括以下步骤:S1、对生物医学文献进行文本处理;S2、句子的结构化表示;S3、构建上下文向量;S4、构建基于上下文向量的等价类划分;S5、基于等价类的上下文向量图核及特征提取;S6、归一化特征的权值;S7、构建生物医学实体关系分类模型;S8、预测生物医学文献中的生物医学实体关系。
【技术特征摘要】
1.基于上下文向量图核的生物医学实体关系分类方法,其特征在于,包括以下步骤:S1、对生物医学文献进行文本处理;S2、句子的结构化表示;S3、构建上下文向量;S4、构建基于上下文向量的等价类划分;S5、基于等价类的上下文向量图核及特征提取;S6、归一化特征的权值;S7、构建生物医学实体关系分类模型;S8、预测生物医学文献中的生物医学实体关系。2.根据权利要求1所述的基于上下文向量图核的生物医学实体关系分类方法,其特征在于,所述的步骤:S1、对生物医学文献进行文本处理:利用句法依存解析器在文本预处理后的句子上进行依存解析,获得句子中符号的文本、PoS标记以及符号间的依存关系;S2、句子的结构化表示:对于依存分析结果中的每一个符号和依存关系,分别创建对应的结点和相关联的标签集;每个符号结点用单词的文本和词性PoS作为标签,每个依存结点用依存类型作标签,利用最短距离算法求出候选实体间的最短依存路径,并分别为句子带权图中的边进行赋权,构建句子的图表示;S3、构建上下文向量:根据句子的图表示G=(V,ε,L),V表示顶点的有限集,表示边或链接的有限集,L表示标签或属性的有限集,构建上下文向量;S4、构建基于上下文向量的等价类划分:对于步骤S3中每一轮迭代得到的上下文向量,进行等价类的划分;S5、基于等价类的上下文向量图核及特征提取:划分出等价类后,形成上下文向量对,利用上下文图核获得所有上下文向量对和其权值,完成特征提取;S6、归一化特征的权值:对于每一对候选生物医学实体实例,利用步骤S5中方法获得的所有上下文向量对和权值,所述上下文向量对称为特征,其权值利用公式进行归一化处理,其中fi和wi分别表示归一化前后的权值,n为从文本中提取的一对候选实体具有的特征数;S7、构建生物医学实体关系分类模型:使用SVM分类方法,对特征进行有监督学习建模从而得到分类模型;S8、预测生物医学文献中的生物医学实体关系:利用步骤S1-S6得到待预测语料的特征,利用步骤S7中的已训练好的分类模型,对待预测语料的特征进行预测,对于每对候选实例在各个类别上的概率值,其中概率值最大的那一类即为候选实例对应的类别标签,从而得到生物医学实体关系类型。3.根据权利要求2所述的基于上下文向量图核的生物医学实体关系分类方法,其特征在于步骤S1中,所述的文本预处理表示为:过滤带有一个生物医学实体或两个实体具有同样符号表示的句子,用字符替代不是生物医学实体子串的数字串;对包括共享前缀或者后缀的由多个单词组成的实体,用“#”连接它们形成一个不带空格的字符串代替相应的实体出现;所有的生物医学实体用BIOENTI*代替,*表示0,1,2,其中BIOENTI1和BIOENTI2表示分析关系的实体,BIOENTI0表示其它生物医学实体。4.根据权利要求2所述的基于上下文向量图核的生物医学实体关系分类方法,其特征在于步骤S3中,所述的构建上下文向量表示为:给定一个...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。