基于混合算法的医疗文献检索方法技术

技术编号:36503586 阅读:8 留言:0更新日期:2023-02-01 15:27
本发明专利技术公开了一种基于混合算法的医疗文献检索方法,对查询词进行扩展,采用改进的BM25算法作为一次检索的基础算法,根据标准化得分降序排序得出检索文献;对一次检索得到的文献进行基于聚类的摘要提取,采用基于Biobert模型的摘要、标题与检索任务的相似度匹配方法计算摘要相似度得分与标题相似度得分;将一次检索得到的文献的得分标准化,使其与标题相似度得分与摘要相似度得分处于同一等级,将三种得分相加并降序排序输出最后的检索结果。本发明专利技术所述的基于混合算法的医疗文献检索方法,在检索的两大指标P@10、R

【技术实现步骤摘要】
基于混合算法的医疗文献检索方法


[0001]本专利技术涉及医疗数据信息检索领域,尤其涉及一种基于混合算法的医疗文献检索方法。

技术介绍

[0002]精准医疗是将现代科学技术手段与传统医学方法相结合,科学地细化人体功能和疾病性质,系统优化人类疾病预防和保健的原则和做法,以有效、安全、经济的医疗服务实现个人和社会健康效益最大化的一种新的医学范式。在精准医疗中,为每个患者选择适当的诊断方法,以实现最小的医源性损害,最小的医疗成本和患者最佳的康复。随着医疗技术的进步,生物医学文章的数量呈指数级增长。在海量文章数据库中找到与患者症状相匹配的相关文章变得越来越困难。
[0003]因此,本专利技术提供一种基于混合算法的医疗文献检索方法。

技术实现思路

[0004]为解决现有技术中存在的不足,本专利技术的目的在于,提供一种基于混合算法的医疗文献检索方法。
[0005]为实现本专利技术的目的,本专利技术所采用的技术方案是:
[0006]一种基于混合算法的医疗文献检索方法,包括以下步骤:
[0007](1)对查询词进行扩展,采用改进的BM25算法作为一次检索的基础算法,根据标准化得分降序排序得出检索文献;
[0008](2)对一次检索得到的文献进行基于聚类的摘要提取,采用基于Biobert模型的摘要、标题与检索任务的相似度匹配方法计算摘要相似度得分与标题相似度得分;
[0009](3)将一次检索得到的文献的得分标准化,使其与标题相似度得分与摘要相似度得分处于同一等级,将三种得分相加并降序排序输出最后的检索结果排序列表。
[0010]进一步地,步骤(1)中,将病人信息输入到医学数据库中获取查询扩展信息,将病人信息与查询扩展信息输入到改进的BM25算法之中得出摘要得分、词得分和共现得分,将三种得分进行标准化相加并按分值降序排序得出检索文献;病人信息包含疾病、基本信息、基因和其他。
[0011]进一步地,步骤(1)中,改进的BM25算法为:
[0012](1.1)定义摘要得分:
[0013][0014]其中,IDF为检索语素q
i
的IDF分数,k1、b1为调整因子,fi为qi的频率在d中,qfi是qi在query中出现的频率,dl是文档d的文本长度,avgdl是所有文档的平均文本长度;
[0015](1.2)提出一个词列表wordlist用于合并一个检索文档的chemical words,MeSH headings,keywords,并对其得分定义如下:
[0016][0017]其中,tfw为每个检索语素的IDF值之和,k1、b1为调整因子,dwl是文档d的wordlist的单词数量,avgdwl是所有文档的wordlist平均单词数量;
[0018](1.3)定义共现得分,即检索语素中的疾病与基因,在摘要和wordlist中共同出现的话,记作共现得分:
[0019][0020]其中,IDF
word
(g
i
,d)表示基因g
i
为查询Q中的基因;
[0021](1.4)将三种得分进行标准化相加,标准化的方法采用max

min方法公式如:
[0022][0023]其中,x
norm
表示标准化后的值,x表示标准化前的值,min(X)表示待标准化数列的最小值,max(X)表示待标准化数列的最大值。
[0024]进一步地,步骤(2)中,基于聚类的摘要提取的具体流程为,采用biobert预训练模型将摘要中的每一句话生成句向量,得到句子级别的向量表示;使用k

mean聚类算法对句子进行聚类,得到N个类别;从每个类别中选取距离中心最近的句子,直到整体长度到达512个单词为止,形成新的摘要文本。
[0025]进一步地,步骤(2)中,采用Biobert模型的相似度计算过程为,将输入送入BERT前,在首部加入[CLS],在摘要/标题之间加入[SEP]作为分隔;然后得到BERT的输出句子对的词向量层,取[CLS]完成相似度计算任务;设取到的[CLS]对应的词向量层为c,计算P=sigmoid(cW')获取摘要/标题与查询任务之间的相似度,使用[0,1]输出logit[CLS]令牌T[CLS]作为输入文档和查询任务的匹配分数。
[0026]进一步地,步骤(2)中,将检索任务分为相同基因不同疾病和疾病相同基因不同;将疾病、基本信息、基因提取放在摘要抽取后的头部,并对疾病相同基因不同或者基因相同疾病不同的内容进行负样本生成。
[0027]本专利技术的有益效果在于,与现有技术相比,本专利技术对一次检索得到的文献再进行基于聚类的摘要提取,采用基于Biobert模型的摘要、标题与检索任务的相似度匹配方法计算摘要相似度得分与标题相似度得分;本专利技术所述的基于混合算法的医疗文献检索方法,在检索的两大指标P@10、R

Prec上均有提高。通过实验与现有算法对比,验证本专利技术所提出的算法的有效性,其综合性能优于现有算法。
附图说明
[0028]图1是本专利技术所述的基于混合算法的医疗文献检索方法示意图;
[0029]图2是bert模型示意图。
具体实施方式
[0030]下面结合附图和实施例对本专利技术的技术方案作进一步的说明。以下实施例仅用于更加清楚地说明本专利技术的技术方案,而不能以此来限制本申请的保护范围。
[0031]如图1所示,本专利技术所述的基于混合算法的医疗文献检索方法,具体包括以下步
骤:
[0032](1)对查询词进行扩展,采用改进的BM25算法作为一次检索的基础算法,根据标准化得分得到top1000的医学文章;
[0033]将病人信息和医学文章信息输入系统,病人信息包含疾病diease、基本信息demographic、基因gene和其他等,医学文章信息包含标题title、摘要abstract、医学主题词MeSH headings、化学词列表chemical list和关键词列表keyword list等;并对将病人信息输入到医学数据库MeSH lbrary中获取查询扩展信息,将病人信息与查询扩展信息输入到改进的BM25算法之中得出摘要得分、词word得分和共现得分,进行标准化处理并按分值降序排序得出top1000的医学文章。
[0034]改进的BM25算法:
[0035](1.1)首先定义摘要得分:
[0036][0037]其中,IDF为检索语素q
i
的IDF分数,其中,k1、b1为调整因子,通常根据经验设定,fi为qi的频率在d中,qfi是qi在query中出现的频率,dl是文档d的文本长度,avgdl是所有文档的平均文本长度。
[0038](1.2)提出了一个词列表wordlist用于合并一个检索文档的chemical words,MeSH headings,keywords,并对其得分定义如下:...

【技术保护点】

【技术特征摘要】
1.一种基于混合算法的医疗文献检索方法,其特征在于,包括以下步骤:(1)对查询词进行扩展,采用改进的BM25算法作为一次检索的基础算法,根据标准化得分降序排序得出检索文献;(2)对一次检索得到的文献进行基于聚类的摘要提取,采用基于Biobert模型的摘要、标题与检索任务的相似度匹配方法计算摘要相似度得分与标题相似度得分;(3)将一次检索得到的文献的得分标准化,使其与标题相似度得分与摘要相似度得分处于同一等级,将三种得分相加并降序排序输出最后的检索结果排序列表。2.根据权利要求1所述的基于混合算法的医疗文献检索方法,其特征在于,步骤(1)中,将病人信息输入到医学数据库中获取查询扩展信息,将病人信息与查询扩展信息输入到改进的BM25算法之中得出摘要得分、词得分和共现得分,将三种得分进行标准化相加并按分值降序排序得出检索文献;病人信息包含疾病、基本信息、基因和其他。3.根据权利要求1所述的基于混合算法的医疗文献检索方法,其特征在于,步骤(1)中,改进的BM25算法为:(1.1)定义摘要得分:其中,IDF为检索语素q
i
的IDF分数,k1、b1为调整因子,fi为qi的频率在d中,qfi是qi在query中出现的频率,dl是文档d的文本长度,avgdl是所有文档的平均文本长度;(1.2)提出一个词列表wordlist用于合并一个检索文档的chemical words,MeSH headings,keywords,并对其得分定义如下:其中,tfw为每个检索语素的IDF值之和,k1、b1为调整因子,dwl是文档d的wordlist的单词数量,avgdwl是所有文档的wordlist平均单词数量;(1.3)定义共现得分,即检索语素中的疾病与基因,在摘要和wordlist中共同出现的话,记作共现...

【专利技术属性】
技术研发人员:张子成曹伟
申请(专利权)人:南京汇宁桀信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1