文本相似度计算模型生成方法、装置、设备及存储介质制造方法及图纸

技术编号：35076536 阅读：19 留言：0更新日期：2022-09-28 11:42

本申请涉及计算机技术领域，本申请提供一种文本相似度计算模型生成方法、装置、设备及存储介质，所述方法获取样本数据集对应的第一样本类别向量，并将第一样本类别向量进行归一化运算，生成第二样本类别向量；获取目标语句对应的第一句向量，并通过BERT模型将句向量归一化，生成第二句向量；根据第二句向量和第二样本类别向量计算目标语句与样本数据集的相似度；基于相似度，生成所述目标语句对应的文本相似度计算模型。通过上述方式，通过将样本数据与目标语句向量化，并将归一化后的样本类别向量与句向量进行相似度计算，确定了文本相似度计算模型，提高了文本相似度计算模型的可靠性，解决了目前计算文本相似度的模型可靠性低下的技术问题。低下的技术问题。低下的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
文本相似度计算模型生成方法、装置、设备及存储介质

[0001]本专利技术涉及计算机
，尤其涉及一种文本相似度计算模型生成方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]随着互联网技术的发展，在越来越多的互联网服务中，各平台选择通过客服机器人去解答用户的一系列问题。在解答问题的过程中，往往通过大量的训练，向客服机器人提供大量的问题与答复作为样本。客服机器人通过用户提出的问题与数据库中保存的样本之间的相似度向用户作出答复。
[0003]目前的句子相似度算法大多针对句子对数据集(即<句子1,句子2,标签>的三元组数据集)，针对在文本分类的数据集，有些做法是将同类句子组合成<句子1,句子2,1>的三元组，不同类之间的句子组合成<句子1,句子2,0>的三元组。但是同类内的数据能组成的正样本远小于异类之间的句子组成的负样本数量，样本极度不平衡。对负样本下采样,又无法完全利用整个数据集的数据信息，往往出现正样本数量远少于负样本数量的情况，导致计算样本相似度的模型可靠性低。因此，如何解决计算文本相似度的模型可靠性低下成为了目前亟待解决的技术问题。

技术实现思路

[0004]本专利技术的主要目的在于提供一种文本相似度计算模型生成方法、装置、设备及计算机可读存储介质，旨在解决现有计算文本相似度的模型可靠性低下的技术问题。
[0005]为实现上述目的，本专利技术提供一种文本相似度计算模型生成方法，所述方法...

【技术保护点】

【技术特征摘要】
1.一种文本相似度计算模型生成方法，其特征在于，所述文本相似度计算模型生成方法包括：获取样本数据集对应的第一样本类别向量，并将所述第一样本类别向量进行归一化运算，生成第二样本类别向量；获取目标语句对应的第一句向量，并通过预训练的语言表征BERT模型将所述句向量归一化，生成第二句向量；根据所述第二句向量和所述第二样本类别向量计算所述目标语句与所述样本数据集的相似度；基于所述相似度，生成所述目标语句对应的文本相似度计算模型。2.如权利要求1所述的文本相似度计算模型生成方法，其特征在于，所述获取样本数据集对应的第一样本类别向量，并将所述第一样本类别向量进行归一化运算，生成第二样本类别向量，包括：基于所述样本数据集中包含的类别数量以及每一类别中包含的样本数量，设置所述第一样本类别向量；通过第一预设公式，通过L2范数将所述第一样本类别向量进行归一化，生成所述第二样本类别向量，其中，所述第一预设公式如下：样本类别向量，其中，所述第一预设公式如下：表示第i个归一化的类别向量，C
i
表示未归一化的类别向量，为类别向量的长度。3.如权利要求1所述的文本相似度计算模型生成方法，其特征在于，所述获取目标语句对应的第一句向量，并通过预训练的语言表征BERT模型将所述句向量归一化，生成第二句向量，包括：将所述目标语句输入至所述BERT模型，将输出的结果作为公共语言规范CLS标签；将所述CLS标签映射至所述第二样本类别向量，并基于映射结果，得到所述第一句向量；通过第二预设公式，通过所述L2范数将所述第一句向量进行归一化，生成所述第二句向量，其中，所述第二预设公式如下：向量，其中，所述第二预设公式如下：表示归一化后的所述第二句向量，X表示未归一化的所述第一句向量，表示句向量的长度。4.如权利要求1所述的文本相似度计算模型生成方法，其特征在于，所述根据所述第二句向量和所述第二样本类别向量计算所述目标语句与所述样本数据集的相似度，包括：基于所述第二句向量和所述第二样本类别向量，通过第三预设公式，计算所述相似度，
其中，所述第三预设公式如下：通过所述第三预设公式计算得到结果即为所述目标语句与所述样本数据集的相似度。5.如权利要求1所述的文本相似度计算模型生成方法，其特征在于，所述基于所述相似度，生成所述目标语句对应的文本相似度计算模型...

【专利技术属性】
技术研发人员：田兴，黄忠品，
申请(专利权)人：宁波牛信网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人