基于主题的医学文献检索方法、系统、存储介质及终端技术方案

技术编号:36514044 阅读:18 留言:0更新日期:2023-02-01 15:44
本发明专利技术公开了基于主题的医学文献检索方法、系统、存储介质及终端,包括:将医学文献中常用词语进行标准化处理,构建规范词表;通过主题模型生成文献的主题集以及主题词集;对输入的检索式进行清洗,得到无序检索词表;遍历匹配所述规范词表,将无序检索词表中的检索词替换为匹配后的规范词,得到规范检索词表,并对规范检索词表中的检索词分配权重;选取其中每一个与规范检索词表中检索词相关的主题词对应的主题,形成各自的主题特征向量;将所述规范检索词表转换为检索式特征向量;计算检索式特征向量和每个主题特征向量的相似度,抽取其中相似度大于一定阈值的主题对应的文献。本发明专利技术通过主题揭示文献提高了检索的全面性和准确性。准确性。准确性。

【技术实现步骤摘要】
基于主题的医学文献检索方法、系统、存储介质及终端


[0001]本专利技术涉及生物医学大数据处理
,尤其涉及基于主题的医学文献检索方法、系统、存储介质及终端。

技术介绍

[0002]近年来,随着生物医学的不断发展,相关文献也呈爆发趋势,不断增长的文献给人们的查找使用带来了极大的成本。文献中包含大量隐性知识,不同研究方向相互交叉,单凭关键词界定文献的内容存在较大的片面性,全文检索又会带来不必要的冗余信息,单纯的基于字符串匹配的查询已经不能满足文献的查询需求,对于特定用户,该需求更加迫切。
[0003]此外,由于文献数据中存在大量自然语言,部分关键词本意相同,但表现形式存在差异,直接检索某个关键词会导致检索不全。同时医学中涉及大量的缩写,尤其是像靶点、药物、适应症等,而缩写一般仅根据首字母或发音来进行,并无详细规范,就导致不同实物的缩写可能会相同,这也为检索带来一定的困难。

技术实现思路

[0004]本专利技术的目的在于克服现有技术中文献检索存在的问题,提供了基于主题的医学文献检索方法、系统、存储介质及终端。
[0005]本专利技术的目的是通过以下技术方案来实现的:在第一方案中,提供一种基于主题的医学文献检索方法,包括以下步骤:S1、将医学文献中常用词语进行标准化处理,构建规范词表;S2、通过主题模型生成文献的主题集以及主题词集;S3、对输入的检索式进行清洗,得到无序检索词表;S4、遍历匹配所述规范词表,将所述无序检索词表中的检索词替换为匹配后的规范词,得到规范检索词表,并对所述规范检索词表中的检索词分配权重;S5、遍历所述主题词集,选取其中每一个与规范检索词表中检索词相关的主题词对应的主题,形成各自的主题特征向量;将所述规范检索词表转换为检索式特征向量;S6、计算检索式特征向量和每个主题特征向量的相似度,抽取其中相似度大于一定阈值的主题对应的文献,得到检索结果。
[0006]在一个示例中,一种基于主题的医学文献检索方法,所述规范词表中包括规范词、规范缩写词、扩展词以及上/下位词。
[0007]在一个示例中,一种基于主题的医学文献检索方法,所述通过主题模型生成文献的主题集以及主题词集,包括:S21、抽取文献作为训练集,其中,选用文献所有有效字段当作文献的文本内容;S22、对抽取的有效字段进行预处理,并通过所述规范词表进行规范;S23、构建训练主题模型,其中基于困惑度选择主题数量K;S24、使用主题模型处理文献并生成主题集及主题词集,同时获得文献的主题概率
分布。
[0008]在一个示例中,一种基于主题的医学文献检索方法,所述有效字段包括篇名、摘要以及关键词,同时对篇名、摘要以及关键词赋权重。
[0009]在一个示例中,一种基于主题的医学文献检索方法,所述通过主题模型生成文献的主题集以及主题词集,还包括:S25、构建主题层次结构,其中,根据不同主题间的主题词重叠情况判断主题之间的相似性。
[0010]在一个示例中,一种基于主题的医学文献检索方法,所述遍历匹配所述规范词表,将所述无序检索词表中的检索词替换为匹配后的规范词,包括:若检索词匹配到了规范词,则检索词本身就为规范词;若检索词匹配到了扩展词,则将该检索词替换为扩展词;若检索词没有匹配到任何词,则不做处理。
[0011]在一个示例中,一种基于主题的医学文献检索方法,所述对所述规范检索词表中的检索词分配权重,包括:根据检索词匹配到规范词的频次给予权重,频次越高,权重越高。
[0012]在第二方案中,提供一种基于主题的医学文献检索系统,所述系统包括:规范词库,用于将医学文献中常用词语进行标准化处理,构建规范词表;主题库,用于通过主题模型生成文献的主题集以及主题词集;检索式预处理模块,用于对输入的检索式进行清洗,得到无序检索词表;检索式规范模块,用于遍历匹配所述规范词表,将所述无序检索词表中的检索词替换为匹配后的规范词,得到规范检索词表,并对所述规范检索词表中的检索词分配权重;特征向量生成模块,用于遍历所述主题词集,选取其中每一个与规范检索词表中检索词相关的主题词对应的主题,形成各自的主题特征向量;还用于将所述规范检索词表转换为检索式特征向量;文献抽取模块,通过计算检索式特征向量和每个主题特征向量的相似度,抽取其中相似度大于一定阈值的主题对应的文献,得到检索结果。
[0013]在第三方案中,提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行任意一项所述医学文献检索方法的步骤。
[0014]在第四方案中,提供一种终端,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,处理器运行计算机指令时执行任意一项所述医学文献检索方法的步骤。
[0015]需要进一步说明的是,上述各选项对应的技术特征在不冲突的情况下可以相互组合或替换构成新的技术方案。
[0016]与现有技术相比,本专利技术有益效果是:(1)本专利技术通过构建检索词的规范词表,保证一定检准率的情况下提高检全率,优化检索结果,由于采用了主题这一维度,可检出与原始检索式内检索词无匹配,但是描述主题较为相近的文献,进一步提高了检索结果的全面性,同时,受主题的控制,也将部分有歧义的检索词匹配到的无关文献进行了筛除,提高了检索的准确性。
[0017](2)在一个示例中,对所述规范检索词表中的检索词分配权重,具体地,根据检索
词匹配到规范词的频次给予权重,频次越高,权重越高,突出检索的重点,提高检索的准确率。
[0018](3)在一个示例中,提取文献的有效字段包括篇名、摘要以及关键词,同时对篇名、摘要以及关键词赋权重,因为最能表达文献的词可能会同时存在篇名、关键词、摘要中,一并选用也可以提高该部分词的出现频次,更容易筛选出代表文献内容的词组,有利于模型生成主题的准确性,便于后续的文献查找。
[0019](4)在一个示例中,根据不同主题间的主题词重叠情况判断主题之间的相似性,便于确定不同主题是否为同一研究领域,生成三层主题结构,依次为研究领域、研究方向、研究主题,方便做后续的主题分簇与可视化。
附图说明
[0020]图1为本专利技术实施例示出的一种基于主题的医学文献检索方法的流程图;图2为本专利技术实施例示出的检索式规范化流程示意图;图3为本专利技术实施例示出的具体检索流程示意。
具体实施方式
[0021]下面结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0022]此外,下面所描述的本专利技术不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
[0023]本专利技术主要通过构建检索词的规范词表,保证一定检准率的情况下提高检全率,优化检索结果,由于采用了主题这一维度,可检出与原始检索式内检索词无匹配,但是描述主题较为相近的文献,进一步提高了检索结果的全面性,同时,受主题的控制,也将本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于主题的医学文献检索方法,其特征在于,包括以下步骤:S1、将医学文献中常用词语进行标准化处理,构建规范词表;S2、通过主题模型生成文献的主题集以及主题词集;S3、对输入的检索式进行清洗,得到无序检索词表;S4、遍历匹配所述规范词表,将所述无序检索词表中的检索词替换为匹配后的规范词,得到规范检索词表,并对所述规范检索词表中的检索词分配权重;S5、遍历所述主题词集,选取其中每一个与规范检索词表中检索词相关的主题词对应的主题,形成各自的主题特征向量;将所述规范检索词表转换为检索式特征向量;S6、计算检索式特征向量和每个主题特征向量的相似度,抽取其中相似度大于一定阈值的主题对应的文献,得到检索结果。2.根据权利要求1所述的一种基于主题的医学文献检索方法,其特征在于,所述规范词表中包括规范词、规范缩写词、扩展词以及上/下位词。3.根据权利要求1所述的一种基于主题的医学文献检索方法,其特征在于,所述通过主题模型生成文献的主题集以及主题词集,包括:S21、抽取文献作为训练集,其中,选用文献所有有效字段当作文献的文本内容;S22、对抽取的有效字段进行预处理,并通过所述规范词表进行规范;S23、构建训练主题模型,其中基于困惑度选择主题数量K;S24、使用主题模型处理文献并生成主题集及主题词集,同时获得文献的主题概率分布。4.根据权利要求3所述的一种基于主题的医学文献检索方法,其特征在于,所述有效字段包括篇名、摘要以及关键词,同时对篇名、摘要以及关键词赋权重。5.根据权利要求3所述的一种基于主题的医学文献检索方法,其特征在于,所述通过主题模型生成文献的主题集以及主题词集,还包括:S25、构建主题层次结构,其中,根据不同主题间的主题词重叠情况判断主题之间的相似性。6.根据权利要求2所述的一...

【专利技术属性】
技术研发人员:王帅王中健朱凌峰
申请(专利权)人:药融云数字科技成都有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1