一种基于双塔模型的自适应术语归一化方法技术

技术编号:37597544 阅读:13 留言:0更新日期:2023-05-18 11:45
本发明专利技术公开了一种基于双塔模型的自适应术语归一化方法。对术语原词利用检索方式在标准术语典中查找召回多个和术语原词相似的标准术语;组建有样本对,并均衡处理获得均衡后的样本对集;用均衡后的样本对集输入到Sentence

【技术实现步骤摘要】
一种基于双塔模型的自适应术语归一化方法


[0001]本专利技术涉及人工智能领域的一种自然语言文本数据处理方法,具体是涉及了一种基于双塔模型的自适应术语归一化方法。

技术介绍

[0002]现实工业应用场景中存在大量的口语、简称、缩写等一系列指向同一个标准术语的称呼,我们将其称为术语原词,比如搜索和问答场景中用户的输入的物品名称是标准库中物品名称的别名时,或者是医生书写疾病或手术使用的口语化描述。术语归一化可以将不规范的术语原词转化为标准术语,实现术语归一化,一个术语原词可以对应多个标准术语的情况。
[0003]目前的归一化技术中,大多数还是采用使用预训练模型进行微调,将术语原词与多个标准词组对进行分类预测,直接取概率最大的那个标准术语,这种方式一是无法自适应识别该术语原词对应的标准术语个数,应该对应到哪几个标准术语中;二是进行线上预测时效率低,推理速度慢。

技术实现思路

[0004]为了解决
技术介绍
中存在的问题,本专利技术提出了一种基于双塔模型的自适应术语归一化方法。
[0005]本专利技术采用的技术方案是包括:
[0006]1)针对存在正确标准术语的术语原词,利用多种检索方式在标准术语典中查找召回多个和术语原词相似的标准术语;
[0007]所述的术语原词是指用户输入的需要待处理的词。所述的标准术语典为由标准术语构成的已知数据表。
[0008]2)将查找召回的所有标准术语分别与术语原词组成负样本对,一个标准术语与术语原词组成一对负样本对,将术语原词和事先已知的正确的标准术语组成正样本对,从而获得所有样本对;
[0009]3)对构造好的所有样本对进行正负样本的均衡处理,获得均衡后的样本对集;
[0010]4)使用均衡后的样本对集输入到Sentence

BERT双塔模型中进行训练,Sentence

BERT双塔模型输出标签和预测结果,标签是样本对为相似或者不相似的分类,预测结果是术语原词对应的标准术语的个数;
[0011]5)使用训练好的Sentence

BERT双塔模型对标准术语典中的所有标准术语进行推理计算处理,将Sentence

BERT双塔模型处理中获得的所有标准术语对应的句子向量保存到离线向量数据库中;
[0012]6)针对用户输入的待预测术语原词,使用训练好的Sentence

BERT双塔模型对待预测术语原词进行推理计算处理,再结合离线向量数据库处理预测获得相似性高的标准术语输出;
[0013]7)利用步骤6)获得的相似性高的标准术语匹配附加到待预测术语原词实现归一化,用于待预测术语原词的标定和之后的被搜索使用。
[0014]使用多种检索方式分别计算术语原词与标准术语典中各个标准术语的相似度,每种检索方式作为一路,每种检索方式查找召回与术语原词相似度排名前T个的非正确的标准术语,即不包含和术语原词正确的标准术语。实际使用场景中可以根据实际情况扩展和调整多路召回的相似度计算方法与每路的召回个数。
[0015]所述的Sentence

BERT双塔模型包括原词分支、标准词分支、向量融合模块、相似度分类器和个数预测分类器;原词分支和标准词分支均包括依次进行的语义模块和池化模块,原词分支和标准词分支的语义模块分别接收术语原词和标准术语进行处理,原词分支的池化模块输出原词句子向量u到个数预测分类器中进行术语原词对应标准术语的个数的预测判断,原词分支和标准词分支的池化模块分别输出原词句子向量u和标准词句子向量v到向量融合模块中,向量融合模块输出结果到相似度分类器中进行相似的概率判断。
[0016]所述的Sentence

BERT双塔模型是Sentence

Transformer结构的一种。所述的语义模块为标准transformer结构的encoder部分,一个transformer的encoder单元由一个Multi

head

Attention+Layer Normalization+feedforword+Layer Normalization叠加产生,BERT的每一层由一个这样的encoder单元构成。
[0017]所述步骤4)中,所述的损失函数设置为由样本对是否相似的二分类交叉熵损失与术语原词对应的标准术语个数预测的softmax损失进行加权融合的结果,表示为:
[0018]loss=γ
·
loss
binary
+(1

γ)
·
loss
multiclass
[0019][0020][0021]其中,loss表示总损失,γ是样本对是否相似的二分类交叉熵损失权重,loss
binary
为样本对是否相似的二分类交叉熵损失,y是二分类中两个样本对是否相似的真实值,是两个样本对是否相似的预测值;loss
multiclass
表示术语原词对应的标准术语个数预测的softmax损失,y
j
表示one

hot后真实样本的标签值,j表示多个类别中的第j个类别,T表示总的类别个数,S
j
是softmax损失输出向量S的第j个值。
[0022]所述步骤6)具体为:
[0023]6.1)使用训练好的Sentence

BERT双塔模型对待预测术语原词进行处理,输出原词句子向量u;
[0024]6.2)按照步骤1)的相同方式对待预测术语原词处理获得多个和术语原词相似的标准术语,并进行去重;
[0025]6.3)在预先存储的离线向量数据库中,以查表的方式取出和步骤6.2)获得的各个标准术语对应的标准术语句子向量v,将术语原词句子向量u与各个标准术语句子向量v分别组成句子对;
[0026]6.4)将各对句子对送入Sentence

BERT双塔模型的相似度分类器中判断获得句子对间是否相似的概率,然后根据相似的概率的排序对和步骤6.2)获得的各个标准术语进行排序;
[0027]6.5)将术语原词编码后的向量送入Sentence

BERT双塔模型的个数预测分类器中进行标准术语个数预测,获得预测的标准术语的个数;
[0028]6.6)用步骤6.5)中模型预测出的标准术语个数,对步骤6.4)中排序后的标准术语进行截断,输出标准术语个数个的排序靠前的标准术语。
[0029]所述的步骤6.4)和6.5)并行进行。
[0030]本专利技术先根据多种检索方式分别从标准术语库中召回与原词相似度排名前T(T≥1)的标准术语;根据多路召回结果构建数据训练数据集并对其进行样本均衡;根据双塔模型进行相似性与对应标准术语个数的自适应截断联合训练,进而利用训练结果对实际的待处理术语进行归本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双塔模型的自适应术语归一化方法,其特征在于:方法包括:1)针对术语原词,利用多种检索方式在标准术语典中查找召回多个和术语原词相似的标准术语;2)将查找召回的所有标准术语分别与术语原词组成负样本对,一个标准术语与术语原词组成一对负样本对,将术语原词和正确的标准术语组成正样本对,从而获得所有样本对;3)对构造好的所有样本对进行正负样本的均衡处理,获得均衡后的样本对集;4)使用均衡后的样本对集输入到Sentence

BERT双塔模型中进行训练,Sentence

BERT双塔模型输出标签和预测结果,标签是样本对为相似或者不相似的分类,预测结果是术语原词对应的标准术语的个数;5)使用训练好的Sentence

BERT双塔模型对标准术语典中的所有标准术语进行推理计算处理,将Sentence

BERT双塔模型处理中获得的所有标准术语对应的句子向量保存到离线向量数据库中;6)针对用户输入的待预测术语原词,使用训练好的Sentence

BERT双塔模型对待预测术语原词进行推理计算处理,再结合离线向量数据库处理预测获得相似性高的标准术语输出;7)利用步骤6)获得的相似性高的标准术语匹配附加到待预测术语原词实现归一化。2.根据权利要求1所述的一种基于双塔模型的自适应术语归一化方法,其特征在于:使用多种检索方式分别计算术语原词与标准术语典中各个标准术语的相似度,每种检索方式查找召回与术语原词相似度排名前T个的非正确的标准术语,即不包含和术语原词正确的标准术语。3.根据权利要求1所述的一种基于双塔模型的自适应术语归一化方法,其特征在于:所述的Sentence

BERT双塔模型包括原词分支、标准词分支、向量融合模块、相似度分类器和个数预测分类器;原词分支和标准词分支均包括依次进行的语义模块和池化模块,原词分支和标准词分支的语义模块分别接收术语原词和标准术语进行处理,原词分支的池化模块输出原词句子向量u到个数预测分类器中进行术语原词对应标准术语的个数的预测判断,原词分支和标准词分支的池化模块分别输出原词句子向量u和标准词句子向量v到向量融合模块中,向量融合模块输出结果到相似度分类器中进行相似的概率判断。4.根据权利要求1所述的一种基于双塔模型的自适应术语归一化方法,其特征在于:所述步...

【专利技术属性】
技术研发人员:袁静赵俊博陈刚鲁鹏周显锞
申请(专利权)人:浙江大学计算机创新技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1