System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理标准化,特别是一种基于融合多策略对比学习的医学术语标准化方法。
技术介绍
1、近年来,互联网+智慧医疗的兴起积累了大量医疗数据,其中包含丰富的诊断信息。有效处理这些以图像或自然语言方式记录的信息,对于提升医疗数据质量与诊断效率至关重要。然而,这些数据通常以结构化(如诊断代码)或非结构化(如临床记录)形式存储,后者使得研究人员难以进行分析。医学信息抽取旨在自动识别、提取并总结医学信息,从大量的医学文献、病历记录和数据库等非结构化或半结构化数据中获取有用信息。医疗术语标准化,作为自然语言处理中的基本任务之一,在医疗信息挖掘中扮演着至关重要的角色。其主要目的是将医疗文本中的指定术语映射到知识库中的标准概念,如icd-9或icd-10。然而,针对中文医疗实体的标准化研究尚处于起步阶段,由于不规范的文本表示(即医学术语)存在着一对多和多对多的关系,因此面临着多蕴含、长尾分布、零样本等问题。医疗术语标准化也被称为医疗实体链接,过去的研究方法主要包括基于规则与字符串匹配、机器学习、以及深度学习等。随着机器学习和深度学习的发展,医学术语标准化的准确率得到了显著提升。
技术实现思路
1、本专利技术所要解决的技术问题是提供一种便于导线弯折的螺丝刀,对普通的螺丝刀进行改进,使其能够辅助进行导线弯折,并且不伤害导线的绝缘漆皮。
2、为解决上述技术问题,本专利技术所采用的技术方案是:一种基于融合多策略对比学习的医学术语标准化方法,包括以下步骤:
3、s1:通
4、s2:通过深度度量学习计算相似度分数,再次对医学术语候选召回;
5、s3:通过融合统计模型和深度度量学习模型,选取前k个最相似的实体作为候选实体,并构建候选集;
6、s4:对所述医学术语以及候选实体的各个字符进行编码,得到所示医学术语和候选实体的向量表示;
7、s5:通过对比学习策略进行优化向量表示,使医学术语和正样本之间的距离拉近,和负样本之间的距离拉远,计算优化后的相似度,进行排序;
8、s6:通过多头注意力机制融合cls和平均池化层信息进行数量预测,预测医学术语包含标准实体的数量;
9、s7:最终根据相似度分数和数量预测结果选取标准实体。
10、优选的,所述候选召回使用tf-idf、elsticsearch数据库计算医学术语文本特征,预训练语言模型bert计算医学术语语义特征,产生包含上下文的字的向量表示;融合文本特征相似度和语义特征相似度,选取最相似的前k个实体作为候选实体,构建候选集。
11、优选的,所述候选排序通过通过构建医学术语、标准实体、候选实体,进行对比学习,其中标准实体作为正样本,候选实体作为负样本,优化特征表示;利用bert模型获得向量表示,将医学术语和标准实体在特征空间里面的距离拉近,同时将医学术语和负样本在特征空间里面的距离拉远,以更好识别相似文本的差异性,提升相似性评分;通过余弦相似度计算相似性分数,最终,通过softmax函数对候选实体进行重新排序。
12、优选的,所述数量预测结合多头注意力机制的bert多分类数量预测模型,以精确预测标准实体的数量。模型在预测时通过多头注意力感知候选排序阶段的cls令牌表示,和平均池化层交互信息。更新后的向量表示通过线性层改变维度以及softmax函数预测医学术语所蕴含的标准实体个数;最后通过数量预测阶段得到的蕴含个数和候选排序的结果,选取最终预测标准实体。
13、优选的,所述候选召回的表达式为:
14、
15、
16、
17、vb(mi)=[bm25(mi,w1),...bm25(mi,wj)]
18、sb(mi)=f2(vb(mi),vb(e))
19、其中mi表示目标医学术语,tf表示字词wj出现的频率,idf表示逆向文件频率,n(wj)表示wj在mi中出现的次数,w表示mi中分词数量,|e|表示知识库中的标准实体总数,t(wj)表示知识库中含有wj的标准实体数量;n表示文档总数,wj表示mi的某个分词,n(wj)表示包含该分词的文档数,e表示搜索结果文档,f(wj,e)表示wj在e中出现的频率,avgdl表示所有文档的平均长度,k1、b为调节因子,vb(mi)和vb(e)表示特征向量,sb(mi)表示通过bm25算法获得的相似性分数,f2由向量内积运算实现,表示两个向量的相似性。
20、优选的,所述候选排序的表达式为:
21、
22、ssort=f3(hi,hi+,hi-)
23、其中其中,sim表示计算相似度方法,τ表示超参数,f3由对比学习构建矩阵,计算对比损失组成,ssort表示候选排序相似性分数。
24、优选的,所述数量预测的表达式为:
25、
26、
27、havg=concat(h1,...hn)wo
28、scorenumber=softmax(ffnn(havg))
29、其中,q,k,v分别表示查询、键、值,dk表示向量维度,wiq,wik,wiv,wo表示模型的可训练参数,hcls和havg表示bert输出,h表示经过注意力机制更新后的向量表示,concat表示向量拼接,ffnn表示前馈神经网络,scorenumber表示预测分数。
30、优选的,所述选取标准实体的表达式为:
31、sall=sdense+ssort
32、其中,sdense表示候选召回总相似度,ssort表示候选排序相似性分数,最终,模型在预测时通过融合候选召回和候选排序阶段得到总相似度分数sall,依赖数量预测阶段得到的蕴含个数,选取最终预测标准实体。
33、本专利技术提供一种基于融合多策略对比学习的医学术语标准化方法,成功开发了首个对比学习模型,针对中文医学术语标准化。该模型能够准确捕捉医学术语与候选词之间微妙的差异,准确率达到了领先水平,超越了当前主流的二分类模型。引入了多头注意力机制进行数量预测,通过感知候选排序与相关信息之间的关联性,有效地提升了数量预测的准确性。在公共数据集yidu-n7k中文术语标准化任务和特定领域-乳腺癌数据集上进行了实验证明,取得了出色的性能表现,为医学信息抽取领域的研究和实践提供了重要参考。
本文档来自技高网...【技术保护点】
1.一种基于融合多策略对比学习的医学术语标准化方法,其特征在于,包括以下步骤:
2.根据权利要求1所述一种基于融合多策略对比学习的医学术语标准化方法,其特征在于,所述候选召回使用TF-IDF、ElsticSearch数据库计算医学术语文本特征,预训练语言模型BERT计算医学术语语义特征,产生包含上下文的字的向量表示;融合文本特征相似度和语义特征相似度,选取最相似的前k个实体作为候选实体,构建候选集。
3.根据权利要求1所述一种基于融合多策略对比学习的医学术语标准化方法,其特征在于,所述候选排序通过通过构建医学术语、标准实体、候选实体,进行对比学习,其中标准实体作为正样本,候选实体作为负样本,优化特征表示;利用BERT模型获得向量表示,将医学术语和标准实体在特征空间里面的距离拉近,同时将医学术语和负样本在特征空间里面的距离拉远,以更好识别相似文本的差异性,提升相似性评分;通过余弦相似度计算相似性分数,最终,通过softmax函数对候选实体进行重新排序。
4.根据权利要求1所述一种基于融合多策略对比学习的医学术语标准化方法,其特征在于,所述数量预测
5.根据权利要求2所述一种基于融合多策略对比学习的医学术语标准化方法,其特征在于,所述候选召回的表达式为:
6.根据权利要求3所述一种基于融合多策略对比学习的医学术语标准化方法,其特征在于,所述候选排序的表达式为:
7.根据权利要求1所述一种基于融合多策略对比学习的医学术语标准化方法,其特征在于,所述数量预测的表达式为:
8.根据权利要求1所述一种基于融合多策略对比学习的医学术语标准化方法,其特征在于,所述选取标准实体的表达式为:
...【技术特征摘要】
1.一种基于融合多策略对比学习的医学术语标准化方法,其特征在于,包括以下步骤:
2.根据权利要求1所述一种基于融合多策略对比学习的医学术语标准化方法,其特征在于,所述候选召回使用tf-idf、elsticsearch数据库计算医学术语文本特征,预训练语言模型bert计算医学术语语义特征,产生包含上下文的字的向量表示;融合文本特征相似度和语义特征相似度,选取最相似的前k个实体作为候选实体,构建候选集。
3.根据权利要求1所述一种基于融合多策略对比学习的医学术语标准化方法,其特征在于,所述候选排序通过通过构建医学术语、标准实体、候选实体,进行对比学习,其中标准实体作为正样本,候选实体作为负样本,优化特征表示;利用bert模型获得向量表示,将医学术语和标准实体在特征空间里面的距离拉近,同时将医学术语和负样本在特征空间里面的距离拉远,以更好识别相似文本的差异性,提升相似性评分;通过余弦相似度计算相似性分数,最终,通过softmax函数对候选实体进行重新排序。
...
【专利技术属性】
技术研发人员:吴义熔,岳崇浩,童顺航,李小龙,唐庭龙,
申请(专利权)人:三峡大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。