结合生物信息本体与注意力机制的医学文献相似判别方法技术

技术编号:26971307 阅读:14 留言:0更新日期:2021-01-06 00:02
本发明专利技术提出了结合生物信息本体与注意力机制的医学文献相似判别方法。该方法具体包括对输入医学文献的标题和摘要经由TextRank技术(主题提取算法)处理,进一步精炼生成代表文档;识别医学文献中的生物信息本体(本发明专利技术使用生物信息本体中基因本体,Gene Ontology,简称GO);结合注意力机制形成权重矩阵,对句中GO术语加权;计算医学文献的相似度,最终判别两篇文献是否相似。本发明专利技术区别于传统语义计算文本相似度方法,生物信息本体的使用统一了两篇医学文献中同一生物意义的表达;结合注意力机制的思想,凸显GO术语在医学文献中的重要性,以此来提高判别医学文献相似的正确性。

【技术实现步骤摘要】
结合生物信息本体与注意力机制的医学文献相似判别方法
本专利技术涉及自然语言处理文献相似度计算,更具体地,涉及生物信息本体和注意力机制的运用。
技术介绍
文献相似度的研究在文本聚类、信息检索、文档复制检测等领域的运用具有重要意义。传统的文本相似度方法,诸如词袋模型(bag-of-words,简称BOW)测量短文本对之间的相似度,其认为相关文档比不相关文档更可能共享通用术语;结合语义进行相似度计算,学习单词的词嵌入表示、利用单词的顺序、词性(POS)标签等等。当进行相似度计算的文本是医学文献时,即使是结合语义进行相似度计算的方法,其并不能将医学用词的不同表述相统一。此外,传统文本相似度方法中并未将重点突出,在计算过程中所有的文本内容重要性一致,而实际中行业的某些行业术语是可以判别文章的大范围类别,在计算过程中应重点关注这类术语。
技术实现思路
本专利技术的目的在于提供一种判别医学文献是否相似的方法,解决现有文献相似判别中的实际问题。GO术语的使用可以统一两篇医学文献中同一生物意义的表达,且在两篇医学文献中若有相类似GO术语的出现,也说明了两篇医学文献更为相关。所以结合注意力机制的思想,突出文献中GO术语在文中的重要性,形成权重矩阵,最后再对两篇医学文献进行相似判别。具体地,本专利技术通过以下方案实现上述目的:结合生物信息本体与注意力机制的医学文献相似判别方法,包含以下步骤:S1、从医学文献中获取文献标题和摘要,经过TextRank技术对获取的摘要精炼,形成代表性文档;S2、从步骤S1中形成的代表性文档提取GO术语(术语,基因本体中的每个词条本说明中简称为术语),生成GO术语的集合;S3、对句中出现的GO术语加权重,突出GO术语在句中的重要性,并生成权重矩阵;S4、结合步骤S3得到的权重矩阵,用文本相似度的计算方法得到代表性文档间的相似度,最后判别文献是否相似;优选地,所述步骤S1进一步包含以下步骤:S1.1、选取每篇医学文献的摘要;S1.2、对步骤S1.1得到的摘要使用TextRank技术,得到精简后的摘要;S1.3、医学文献的标题和步骤S1.2中所得摘要构成该医学文献的代表性文档。步骤S1.2包含以下步骤:S1.2-1、对每篇医学文献的摘要以句子为单位划分;S1.2-2、使用Doc2vec模型训练句向量;S1.2-3、计算句子向量间的相似性并存放在矩阵中,句子向量间的相似性计算方法如下:其中,Vi和Vj分别为句子i和句子j的句子向量表示。S1.2-4、将步骤S1.2-3中所得的相似矩阵转换为以句子为节点、相似性得分为边的图结构,用于句子TextRank计算出,句子的TextRank计算方法如下:其中,Vi为图中顶点i,表示为句子i;In(Vi)为指向顶点Vi的顶点集合;Out(Vj)为由顶点Vj指出的顶点的集合;wji为边的权重,表示为顶点Vj和顶点Vi的相似度值;d系数,通常设置为0.85;S1.2-5、将一定数量的排名最高的句子构成最后的摘要。优选地,所述步骤S2进一步包含以下步骤:S2.1、对代表文档进行分句;S2.2、进行字典匹配;S2.3、使用随机森林模型对步骤S2.2中收集到所有命名概念的表面名称进行分类,判断收集的表面名称是否为GO术语,最终得到每句中GO术语集合。所述随机森林模型可用来对输入数据进行分类,此处分类即为判断表面名称是否为GO术语;步骤S2.2包含以下步骤:S2.2-1、从GO数据生成命名概念和声明,具体地结合一组正则表达式,GO概念的名称或同义词分解为命名概念和声明,命名概念主要分为三类:NC-P、NC-E和NC-C。NC-P称为模式,NC-P的表面名称一般为动词,用于剪切名称或同义词,并将其拆分为命名概念;NC-E称为实体,是NC-P分解过程创建的命名概念;NC-C称为约束,事先已由NC-C正则表达式过滤;每个GO概念的声明语句是由该GO概念的命名概念组成的集合,是GO概念的一个简明表示;S2.2-2、从步骤S2.1中生成的句子中得到GO术语的候选词,候选词从输入语句的Gγ中产生,并且候选词包含指向GO概念的相关声明s,所述Gγ是句子γ中已知命名概念的所有表面名称所关联的命名概念列表,s是来自GO名称或同义词的命名概念集合,在这部分,考虑所有的声明,以确定s和Gγ是否至少有一个共享的命名概念,最终收集到每句中所有命名概念的表面名称。优选地,所述步骤S3中,对句中出现的GO术语加权重,具体步骤可划分为:S3.1GO术语相似度计算;S3.2调用归一化函数,突出GO术语在句中的权重;S3.3生成权重矩阵所述步骤S3.1中,GO术语相似度计算,对步骤S2中得到的两个句子中GO术语集合计算两句中GO术语间的相似度,计算方法如下:GO术语的信息内容(informationcontent,简称IC)计算如下:Ic(f)=-logP(f)其中P(f)表示GO术语f及其子项存在的概率。GO术语f(包括它的后代GO项)的出现次数除以同一语料库中所有GO项的出现总数。给定一个GO术语A,A及其祖先的GODAG被定义为=DAG(A,TA,EA),其中TA是包含A及其祖先的GO术语的集合,EA是DAGA中TA节点之间的链接(即边)的集合。为了测量祖先对GO-DAG中A的语义贡献,我们首先根据链接的类型和子节点的数量计算语义贡献的权重:We=1/(c+nc(t))+dnc(t)为GO术语t的子项总数;c和d都是常数变量。d是指通过链接的语义贡献有多强,这取决于GO术语与其父节点之间的链接类型。当链接类型指定为‘is-a’、‘part-of’和‘regulates’,则d的取值分别为0.4、0.3和0.2。参数c受基于等式的有效权重范围的限制,要使0<We≤1,多次实验后,参数c取0.67。对于DAGA=(A,TA,EA)中的每个术语,它对目标术语A具有语义贡献,定义为:GO术语A的语义值是DAGA中S值的总和:最后,给出DAGA=(A,TA,EA)和DAGB=(B,TB,EB),GO术语A和GO术语B的相似度计算如下:由上式可知其中t是TA和TB中存在的公共GO术语项;SA(t)和SB(t)分别是基于TA和TB的。所述步骤S3.2中,调用归一化函数softmax,对步骤S3.1中得到的GO术语相似度归一化,突出GO术语在句中的权重,计算方式如下:αi为句中GO术语集合中第i个GO术语的权重,假设代表性文档1中句子S1和代表性文档2中句子S2,句子S1中GO术语集合为A,句子S2中GO术语集合为B,计算A中各GO术语与B中GO术语m相似度为集合S,Si,Sj为集合S中的值,αi即体现了句子S1中第i个GO术语对句子S2中第m个GO术语的重要性。所述步骤S3本文档来自技高网...

【技术保护点】
1.结合生物信息本体与注意力机制的医学文献相似判别方法,其特征在于,包含以下步骤:/nS1、从医学文献中获取文献标题和摘要,经过主题词提取算法TextRank对获取的摘要精炼,形成代表性文档;/nS2、从步骤S1中形成的代表性文档提取GO术语,生成GO术语的集合;/nS3、对句中出现的GO术语加权重,突出GO术语在句中的重要性,并生成权重矩阵;/nS4、结合步骤S3得到的权重矩阵,用文本相似度的计算方法得到代表性文档间的相似度,最后判别文献是否相似;/n所述步骤S1进一步包含以下步骤:/nS1.1、选取每篇医学文献的摘要;/nS1.2、对步骤S1.1得到的摘要使用TextRank技术,得到精简后的摘要;/nS1.3、医学文献的标题和步骤S1.2中所得摘要构成该医学文献的代表性文档;/n步骤S1.2包含以下步骤:/nS1.2-1、对每篇医学文献的摘要以句子为单位划分;/nS1.2-2、对步骤S1.2-1中的文献句子训练相应句向量;/nS1.2-3、计算句子向量间的相似性并存放在矩阵中,句子向量间的相似性计算方法如下:/n

【技术特征摘要】
1.结合生物信息本体与注意力机制的医学文献相似判别方法,其特征在于,包含以下步骤:
S1、从医学文献中获取文献标题和摘要,经过主题词提取算法TextRank对获取的摘要精炼,形成代表性文档;
S2、从步骤S1中形成的代表性文档提取GO术语,生成GO术语的集合;
S3、对句中出现的GO术语加权重,突出GO术语在句中的重要性,并生成权重矩阵;
S4、结合步骤S3得到的权重矩阵,用文本相似度的计算方法得到代表性文档间的相似度,最后判别文献是否相似;
所述步骤S1进一步包含以下步骤:
S1.1、选取每篇医学文献的摘要;
S1.2、对步骤S1.1得到的摘要使用TextRank技术,得到精简后的摘要;
S1.3、医学文献的标题和步骤S1.2中所得摘要构成该医学文献的代表性文档;
步骤S1.2包含以下步骤:
S1.2-1、对每篇医学文献的摘要以句子为单位划分;
S1.2-2、对步骤S1.2-1中的文献句子训练相应句向量;
S1.2-3、计算句子向量间的相似性并存放在矩阵中,句子向量间的相似性计算方法如下:



其中,Vi和Vj分别为句子i和句子j的句子向量表示;
S1.2-4、将步骤S1.2-3中所得的相似矩阵转换为以句子为节点、相似性得分为边的图结构,用于句子TextRank计算出,句子的TextRank计算方法如下:



其中,Vi为图中顶点i,表示为句子i;In(Vi)为指向顶点Vi的顶点集合;
Out(Vj)为由顶点Vj指出的顶点的集合;wji为边的权重,表示为顶点Vj和顶点Vi的相似度值;系数d取0.85;
S1.2-5、将一定数量的排名最高的句子构成最后的摘要;
所述步骤S3进一步包含以下步骤:
S3.1、GO术语相似度计算,对步骤S2中得到的两个句子中GO术语集合计算两句中GO术语间的相似度,计算方法如下:
GO术语的信息内容,计算如下:
Ic(f)=-logP(f)
其中P(f)表示GO术语f及其子项存在的概率:



给定一个GO术语A,A及其祖先的GO术语DAG被定义为DAGA=(a,TA,EA),其中TA是包含A及其祖先的GO术语的集合,EA是DAGA中TA节点之间的链接边集合,根据链接的类型和子节点的数量计算语义贡献的权重:
We=1/(c+nc(t)...

【专利技术属性】
技术研发人员:陈霞李美晶
申请(专利权)人:上海海事大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1