【技术实现步骤摘要】
一种基于双塔模型的自适应术语归一化方法
[0001]本专利技术涉及人工智能领域的一种自然语言文本数据处理方法,具体是涉及了一种基于双塔模型的自适应术语归一化方法。
技术介绍
[0002]现实工业应用场景中存在大量的口语、简称、缩写等一系列指向同一个标准术语的称呼,我们将其称为术语原词,比如搜索和问答场景中用户的输入的物品名称是标准库中物品名称的别名时,或者是医生书写疾病或手术使用的口语化描述。术语归一化可以将不规范的术语原词转化为标准术语,实现术语归一化,一个术语原词可以对应多个标准术语的情况。
[0003]目前的归一化技术中,大多数还是采用使用预训练模型进行微调,将术语原词与多个标准词组对进行分类预测,直接取概率最大的那个标准术语,这种方式一是无法自适应识别该术语原词对应的标准术语个数,应该对应到哪几个标准术语中;二是进行线上预测时效率低,推理速度慢。
技术实现思路
[0004]为了解决
技术介绍
中存在的问题,本专利技术提出了一种基于双塔模型的自适应术语归一化方法。
[0005]本专利技术采用的技术方案是包括:
[0006]1)针对存在正确标准术语的术语原词,利用多种检索方式在标准术语典中查找召回多个和术语原词相似的标准术语;
[0007]所述的术语原词是指用户输入的需要待处理的词。所述的标准术语典为由标准术语构成的已知数据表。
[0008]2)将查找召回的所有标准术语分别与术语原词组成负样本对,一个标准术语与术语原词组成一对负样本对,将术语原词和事先已知的正确 ...
【技术保护点】
【技术特征摘要】
1.一种基于双塔模型的自适应术语归一化方法,其特征在于:方法包括:1)针对术语原词,利用多种检索方式在标准术语典中查找召回多个和术语原词相似的标准术语;2)将查找召回的所有标准术语分别与术语原词组成负样本对,一个标准术语与术语原词组成一对负样本对,将术语原词和正确的标准术语组成正样本对,从而获得所有样本对;3)对构造好的所有样本对进行正负样本的均衡处理,获得均衡后的样本对集;4)使用均衡后的样本对集输入到Sentence
‑
BERT双塔模型中进行训练,Sentence
‑
BERT双塔模型输出标签和预测结果,标签是样本对为相似或者不相似的分类,预测结果是术语原词对应的标准术语的个数;5)使用训练好的Sentence
‑
BERT双塔模型对标准术语典中的所有标准术语进行推理计算处理,将Sentence
‑
BERT双塔模型处理中获得的所有标准术语对应的句子向量保存到离线向量数据库中;6)针对用户输入的待预测术语原词,使用训练好的Sentence
‑
BERT双塔模型对待预测术语原词进行推理计算处理,再结合离线向量数据库处理预测获得相似性高的标准术语输出;7)利用步骤6)获得的相似性高的标准术语匹配附加到待预测术语原词实现归一化。2.根据权利要求1所述的一种基于双塔模型的自适应术语归一化方法,其特征在于:使用多种检索方式分别计算术语原词与标准术语典中各个标准术语的相似度,每种检索方式查找召回与术语原词相似度排名前T个的非正确的标准术语,即不包含和术语原词正确的标准术语。3.根据权利要求1所述的一种基于双塔模型的自适应术语归一化方法,其特征在于:所述的Sentence
‑
BERT双塔模型包括原词分支、标准词分支、向量融合模块、相似度分类器和个数预测分类器;原词分支和标准词分支均包括依次进行的语义模块和池化模块,原词分支和标准词分支的语义模块分别接收术语原词和标准术语进行处理,原词分支的池化模块输出原词句子向量u到个数预测分类器中进行术语原词对应标准术语的个数的预测判断,原词分支和标准词分支的池化模块分别输出原词句子向量u和标准词句子向量v到向量融合模块中,向量融合模块输出结果到相似度分类器中进行相似的概率判断。4.根据权利要求1所述的一种基于双塔模型的自适应术语归一化方法,其特征在于:所述步...
【专利技术属性】
技术研发人员:袁静,赵俊博,陈刚,鲁鹏,周显锞,
申请(专利权)人:浙江大学计算机创新技术研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。