【技术实现步骤摘要】
一种医学文献查找方法、系统、存储介质及终端
[0001]母案:申请号:2022116816118:名称:基于主题的医学文献检索方法、系统、存储介质及终端
[0002]本专利技术涉及生物医学大数据处理
,尤其涉及一种医学文献查找方法、系统、存储介质及终端。
技术介绍
[0003]近年来,随着生物医学的不断发展,相关文献也呈爆发趋势,不断增长的文献给人们的查找使用带来了极大的成本。文献中包含大量隐性知识,不同研究方向相互交叉,单凭关键词界定文献的内容存在较大的片面性,全文检索又会带来不必要的冗余信息,单纯的基于字符串匹配的查询已经不能满足文献的查询需求,对于特定用户,该需求更加迫切。
[0004]此外,由于文献数据中存在大量自然语言,部分关键词本意相同,但表现形式存在差异,直接检索某个关键词会导致检索不全。同时医学中涉及大量的缩写,尤其是像靶点、药物、适应症等,而缩写一般仅根据首字母或发音来进行,并无详细规范,就导致不同实物的缩写可能会相同,这也为检索带来一定的困难。
技术实现思路
[000 ...
【技术保护点】
【技术特征摘要】
1.一种医学文献查找方法,其特征在于,包括以下步骤:S1、将医学文献中常用词语进行标准化处理,构建规范词表;S2、通过主题模型生成文献的主题集以及主题词集;所述通过主题模型生成文献的主题集以及主题词集,包括:S21、抽取文献作为训练集,其中,选用文献所有有效字段当作文献的文本内容;S22、对抽取的有效字段进行预处理,并通过所述规范词表进行规范;S23、构建训练主题模型,其中基于困惑度选择主题数量K;S24、使用主题模型处理文献并生成主题集及主题词集,同时获得文献的主题概率分布;所述有效字段包括篇名、摘要以及关键词,同时对篇名、摘要以及关键词赋权重;所述对篇名、摘要以及关键词赋权重,包括:对篇名赋最高权重,关键词的权重次之,摘要权重最小;S3、对输入的检索式进行清洗,得到无序检索词表;S4、遍历匹配所述规范词表,将所述无序检索词表中的检索词替换为匹配后的规范词,得到规范检索词表,并对所述规范检索词表中的检索词分配权重;所述对所述规范检索词表中的检索词分配权重,包括:根据检索词匹配到规范词的频次给予权重,频次越高,权重越高;S5、遍历所述主题词集,选取其中每一个与规范检索词表中检索词相关的主题词对应的主题,形成各自的主题特征向量;将所述规范检索词表转换为检索式特征向量;所述选取其中每一个与规范检索词表中检索词相关的主题词对应的主题,形成各自的主题特征向量,包括:依据主题中的主题词与检索词之间的关联性确定特征向量维度,对于主题,将各主题词的概率作为分量的值;所述将所述规范检索词表转换为检索式特征向量,包括:对于检索式,将权重作为分量值,空白分量填充为0;S6、计算检索式特征向量和每个主题特征向量的相似度,抽取其中相似度大于一定阈值的主题对应的文献,得到检索结果。2.根据权利要求1所述的一种医学文献查找方法,其特征在于,所述规范词表中包括规范词、规范缩写词、扩展词以及上/下位词。3.根据权利要求1所述的一种医学文献查找方法,其特征在于,所述通过主题模型生成文献的主题集以及主题词集,还包括:S25、构建主题层次结构,其中,根据不同主题间的主...
【专利技术属性】
技术研发人员:王帅,王中健,朱凌峰,
申请(专利权)人:药融云数字科技成都有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。