基于MeSH的医学文献集相似性度量方法技术

技术编号:19543669 阅读:36 留言:0更新日期:2018-11-24 20:35
本发明专利技术公开了一种基于MeSH的医学文献集相似性度量方法,其包括获取与疾病或基因相关的搜索主题词;检索与所述搜索主题词相关的文献,并采用同一搜索主题词检索得到的所有文献形成主题词文献集;采用主题词文献集中每篇文献在其内包含的医学主题词的权重值,将文献映射到向量空间构建成MeSH空间矩阵;计算主题词文献集A在MeSH空间矩阵中医学主题词g的权重值;根据主题词文献集在所有医学主题词的权重值,构建主题词文献集A的矢量式;计算MeSH空间矩阵中文献集A与文献集B的余弦相似度。

MeSH-based similarity measurement method for medical literature collection

The invention discloses a similarity measurement method for medical literature collection based on MeSH, which includes acquiring search subject words related to diseases or genes, searching documents related to the search subject words, and using the same search subject words to retrieve all the documents to form a subject word literature collection, and adopting each subject word document collection. The weight values of medical subject words contained in a document are mapped to vector space to construct a MeSH space matrix; the weight values of subject headings A and G are calculated in MeSH space matrix; and the vector formulas of subject headings A are constructed according to the weight values of all medical subject headings in the subject headings literature set. The cosine similarity between document set A and document set B in MeSH space matrix is calculated.

【技术实现步骤摘要】
基于MeSH的医学文献集相似性度量方法
本专利技术涉及文献之间相似度的计算,具体涉及基于MeSH(VetorSpaceModel,向量空间模型)的医学文献集相似性度量方法。
技术介绍
传统的医学文献集相似度计算方法,有通过人工标定将原始医学文献数据转化为疾病和基因的关系并记录在数据库中,建立了遗传关联数据库;也有通过遗传数据库提取了疾病和一千七百多种基因的关系,创建了人类疾病网络;还有通过特征向量中心、中介中心性等数据指标得到了疾病相关的基因网络。但是基于人工标定的文献关系挖掘,审核需要精力,无法满足文献新增速度;基于语义的文献挖掘,涉及自然语言处理,计算量太大,限制了挖掘的总样本数。且大多数文献相似度的计算算法,仅仅能感知文献的字面含义,无法在文献的隐含语义层面来进步挖掘相似性。
技术实现思路
针对现有技术中的上述不足,本专利技术提供的基于MeSH的医学文献集相似性度量方法解决了传统方法仅仅感知文献表面意义,无法挖掘隐含信息的相似性的问题。为了达到上述专利技术目的,本专利技术采用的技术方案为:提供一种基于MeSH的医学文献集相似性度量方法,其包括:获取与疾病或基因相关的搜索主题词;检索本文档来自技高网...

【技术保护点】
1.基于MeSH的医学文献集相似性度量方法,其特征在于,包括:获取与疾病或基因相关的搜索主题词;检索与所述搜索主题词相关的文献,并采用同一搜索主题词检索得到的所有文献形成主题词文献集;采用主题词文献集中每篇文献在其内包含的医学主题词的权重值,将文献映射到向量空间构建成MeSH空间矩阵;计算主题词文献集A在MeSH空间矩阵中医学主题词g的权重值WAm:

【技术特征摘要】
1.基于MeSH的医学文献集相似性度量方法,其特征在于,包括:获取与疾病或基因相关的搜索主题词;检索与所述搜索主题词相关的文献,并采用同一搜索主题词检索得到的所有文献形成主题词文献集;采用主题词文献集中每篇文献在其内包含的医学主题词的权重值,将文献映射到向量空间构建成MeSH空间矩阵;计算主题词文献集A在MeSH空间矩阵中医学主题词g的权重值WAm:其中,f是指含搜索主题词A的文献总数;nAj为与搜索主题词A相关的文章中,第j篇文章对应的MeSH主题词的个数;ej为第j篇文献被引用的次数;k为f篇文献中包含医学主题词g的篇数,1≤g≤m,m为医学主题的总个数;ei为第i篇文献被引用的次数;f’为搜索主题词B对应的文献集与搜索主题词A的文献集交集的数量;qg为包含医学主题词g的文章数量;根据主题词文献集A在所有医学主题词的权重值,构建主题词文献集A的矢量式:WA=(wA1,wA2,…,wAm);计算MeSH空间矩阵中主题词文献集A与主题词文献集B的余弦相似度:其中,WBg为主题词文献集B在MeSH空间矩阵中医学主题词g的权重值。2.根据权利要求1所述的基于MeSH的医学文献集相似性度量方法,其特征在于,所述采用主题词文献集中每篇文献与其内包含的医学主题词的权重值,将文献映射到向量空间构建成MeSH空间矩阵进一步包括:提取主题词文献集中每篇文献的医学主题词及所有主题词文献集...

【专利技术属性】
技术研发人员:邹见效鲁文斌凡时财徐红兵
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1