结合生物信息本体与注意力机制的医学文献相似判别方法技术

技术编号：26971307 阅读：14 留言：0更新日期：2021-01-06 00:02

本发明专利技术提出了结合生物信息本体与注意力机制的医学文献相似判别方法。该方法具体包括对输入医学文献的标题和摘要经由TextRank技术(主题提取算法)处理，进一步精炼生成代表文档；识别医学文献中的生物信息本体(本发明专利技术使用生物信息本体中基因本体，Gene Ontology，简称GO)；结合注意力机制形成权重矩阵，对句中GO术语加权；计算医学文献的相似度，最终判别两篇文献是否相似。本发明专利技术区别于传统语义计算文本相似度方法，生物信息本体的使用统一了两篇医学文献中同一生物意义的表达；结合注意力机制的思想，凸显GO术语在医学文献中的重要性，以此来提高判别医学文献相似的正确性。

全部详细技术资料下载

【技术实现步骤摘要】
结合生物信息本体与注意力机制的医学文献相似判别方法
本专利技术涉及自然语言处理文献相似度计算，更具体地，涉及生物信息本体和注意力机制的运用。
技术介绍
文献相似度的研究在文本聚类、信息检索、文档复制检测等领域的运用具有重要意义。传统的文本相似度方法，诸如词袋模型(bag-of-words，简称BOW)测量短文本对之间的相似度，其认为相关文档比不相关文档更可能共享通用术语；结合语义进行相似度计算，学习单词的词嵌入表示、利用单词的顺序、词性(POS)标签等等。当进行相似度计算的文本是医学文献时，即使是结合语义进行相似度计算的方法，其并不能将医学用词的不同表述相统一。此外，传统文本相似度方法中并未将重点突出，在计算过程中所有的文本内容重要性一致，而实际中行业的某些行业术语是可以判别文章的大范围类别，在计算过程中应重点关注这类术语。
技术实现思路
本专利技术的目的在于提供一种判别医学文献是否相似的方法，解决现有文献相似判别中的实际问题。GO术语的使用可以统一两篇医学文献中同一生物意义的表达，且在两篇医学文献中若有相类似GO术语的出现，也说明了两篇医学文献更为相关。所以结合注意力机制的思想，突出文献中GO术语在文中的重要性，形成权重矩阵，最后再对两篇医学文献进行相似判别。具体地，本专利技术通过以下方案实现上述目的：结合生物信息本体与注意力机制的医学文献相似判别方法，包含以下步骤：S1、从医学文献中获取文献标题和摘要，经过TextRank技术对获取的摘要精炼，形成代表性文档；S2、从步...

【技术保护点】
1.结合生物信息本体与注意力机制的医学文献相似判别方法，其特征在于，包含以下步骤：/nS1、从医学文献中获取文献标题和摘要，经过主题词提取算法TextRank对获取的摘要精炼，形成代表性文档；/nS2、从步骤S1中形成的代表性文档提取GO术语，生成GO术语的集合；/nS3、对句中出现的GO术语加权重，突出GO术语在句中的重要性，并生成权重矩阵；/nS4、结合步骤S3得到的权重矩阵，用文本相似度的计算方法得到代表性文档间的相似度，最后判别文献是否相似；/n所述步骤S1进一步包含以下步骤：/nS1.1、选取每篇医学文献的摘要；/nS1.2、对步骤S1.1得到的摘要使用TextRank技术，得到精简后的摘要；/nS1.3、医学文献的标题和步骤S1.2中所得摘要构成该医学文献的代表性文档；/n步骤S1.2包含以下步骤:/nS1.2-1、对每篇医学文献的摘要以句子为单位划分；/nS1.2-2、对步骤S1.2-1中的文献句子训练相应句向量；/nS1.2-3、计算句子向量间的相似性并存放在矩阵中，句子向量间的相似性计算方法如下：/n

【技术特征摘要】
1.结合生物信息本体与注意力机制的医学文献相似判别方法，其特征在于，包含以下步骤：
S1、从医学文献中获取文献标题和摘要，经过主题词提取算法TextRank对获取的摘要精炼，形成代表性文档；
S2、从步骤S1中形成的代表性文档提取GO术语，生成GO术语的集合；
S3、对句中出现的GO术语加权重，突出GO术语在句中的重要性，并生成权重矩阵；
S4、结合步骤S3得到的权重矩阵，用文本相似度的计算方法得到代表性文档间的相似度，最后判别文献是否相似；
所述步骤S1进一步包含以下步骤：
S1.1、选取每篇医学文献的摘要；
S1.2、对步骤S1.1得到的摘要使用TextRank技术，得到精简后的摘要；
S1.3、医学文献的标题和步骤S1.2中所得摘要构成该医学文献的代表性文档；
步骤S1.2包含以下步骤:
S1.2-1、对每篇医学文献的摘要以句子为单位划分；
S1.2-2、对步骤S1.2-1中的文献句子训练相应句向量；
S1.2-3、计算句子向量间的相似性并存放在矩阵中，句子向量间的相似性计算方法如下：

其中，Vi和Vj分别为句子i和句子j的句子向量表示；
S1.2-4、将步骤S1.2-3中所得的相似矩阵转换为以句子为节点、相似性得分为边的图结构，用于句子TextRank计算出，句子的TextRank计算方法如下：

其中，Vi为图中顶点i，表示为句子i；In(Vi)为指向顶点Vi的顶点集合；
Out(Vj)为由顶点Vj指出的顶点的集合；wji为边的权重，表示为顶点Vj和顶点Vi的相似度值；系数d取0.85；
S1.2-5、将一定数量的排名最高的句子构成最后的摘要；
所述步骤S3进一步包含以下步骤：
S3.1、GO术语相似度计算，对步骤S2中得到的两个句子中GO术语集合计算两句中GO术语间的相似度，计算方法如下：
GO术语的信息内容，计算如下：
Ic(f)＝-logP(f)
其中P(f)表示GO术语f及其子项存在的概率：

给定一个GO术语A，A及其祖先的GO术语DAG被定义为DAGA＝(a，TA，EA)，其中TA是包含A及其祖先的GO术语的集合，EA是DAGA中TA节点之间的链接边集合，根据链接的类型和子节点的数量计算语义贡献的权重：
We＝1/(c+nc(t)...

【专利技术属性】
技术研发人员：陈霞，李美晶，
申请(专利权)人：上海海事大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人