文本相似度计算模型生成方法、装置、设备及存储介质制造方法及图纸

技术编号:35076536 阅读:19 留言:0更新日期:2022-09-28 11:42
本申请涉及计算机技术领域,本申请提供一种文本相似度计算模型生成方法、装置、设备及存储介质,所述方法获取样本数据集对应的第一样本类别向量,并将第一样本类别向量进行归一化运算,生成第二样本类别向量;获取目标语句对应的第一句向量,并通过BERT模型将句向量归一化,生成第二句向量;根据第二句向量和第二样本类别向量计算目标语句与样本数据集的相似度;基于相似度,生成所述目标语句对应的文本相似度计算模型。通过上述方式,通过将样本数据与目标语句向量化,并将归一化后的样本类别向量与句向量进行相似度计算,确定了文本相似度计算模型,提高了文本相似度计算模型的可靠性,解决了目前计算文本相似度的模型可靠性低下的技术问题。低下的技术问题。低下的技术问题。

【技术实现步骤摘要】
文本相似度计算模型生成方法、装置、设备及存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种文本相似度计算模型生成方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]随着互联网技术的发展,在越来越多的互联网服务中,各平台选择通过客服机器人去解答用户的一系列问题。在解答问题的过程中,往往通过大量的训练,向客服机器人提供大量的问题与答复作为样本。客服机器人通过用户提出的问题与数据库中保存的样本之间的相似度向用户作出答复。
[0003]目前的句子相似度算法大多针对句子对数据集(即<句子1,句子2,标签>的三元组数据集),针对在文本分类的数据集,有些做法是将同类句子组合成<句子1,句子2,1>的三元组,不同类之间的句子组合成<句子1,句子2,0>的三元组。但是同类内的数据能组成的正样本远小于异类之间的句子组成的负样本数量,样本极度不平衡。对负样本下采样,又无法完全利用整个数据集的数据信息,往往出现正样本数量远少于负样本数量的情况,导致计算样本相似度的模型可靠性低。因此,如何解决计算文本相似度的模型可靠性低下成为了目前亟待解决的技术问题。

技术实现思路

[0004]本专利技术的主要目的在于提供一种文本相似度计算模型生成方法、装置、设备及计算机可读存储介质,旨在解决现有计算文本相似度的模型可靠性低下的技术问题。
[0005]为实现上述目的,本专利技术提供一种文本相似度计算模型生成方法,所述方法获取样本数据集对应的第一样本类别向量,并将所述第一样本类别向量进行归一化运算,生成第二样本类别向量;获取目标语句对应的第一句向量,并通过预训练的语言表征BERT模型将所述句向量归一化,生成第二句向量;根据所述第二句向量和所述第二样本类别向量计算所述目标语句与所述样本数据集的相似度;基于所述相似度,生成所述目标语句对应的文本相似度计算模型。
[0006]进一步地,获取样本数据集对应的第一样本类别向量,并将所述第一样本类别向量进行归一化运算,生成第二样本类别向量,包括:
[0007]基于所述样本数据集中包含的类别数量以及每一类别中包含的样本数量,设置所述第一样本类别向量;
[0008]通过第一预设公式,通过L2范数将所述第一样本类别向量进行归一化,生成所述第二样本类别向量,其中,所述第一预设公式如下:
[0009][0010]表示第i个归一化的类别向量,C
i
表示未归一化的类别向量,为类别
向量的长度;
[0011]进一步地,获取目标语句对应的第一句向量,并通过预训练的语言表征BERT模型将所述句向量归一化,生成第二句向量,包括:
[0012]将所述目标语句输入至所述BERT模型,将输出的结果作为公共语言规范CLS标签;
[0013]将所述CLS标签映射至所述第二样本类别向量,并基于映射结果,得到所述第一句向量;
[0014]通过第二预设公式,通过所述L2范数将所述第一句向量进行归一化,生成所述第二句向量,其中,所述第二预设公式如下:
[0015][0016]表示归一化后的所述第二句向量,X表示未归一化的所述第一句向量,表示句向量的长度;
[0017]进一步地,根据所述第二句向量和所述第二样本类别向量计算所述目标语句与所述样本数据集的相似度,包括:
[0018]基于所述第二句向量和所述第二样本类别向量,通过第三预设公式,计算所述相似度,其中,所述第三预设公式如下:
[0019][0020]通过所述第三预设公式计算得到结果即为所述目标语句与所述样本数据集的相似度;
[0021]进一步地,基于所述相似度,生成所述目标语句对应的文本相似度计算模型之前,包括:
[0022]通过所述相似度,获取相似度矩阵,其中,所述相似度矩阵如下:
[0023][0024]S为所述相似度矩阵,为所述句向量,为所述样本类别向量,S包含了n个向量;
[0025]进一步地,通过所述相似度,获取相似度矩阵之后,包括:
[0026]将所述相似度矩阵进行一位有效One

Hot编码,得到编码后的真实值,其中,所述真实值如下:
[0027]target=[0,0,1,0,...,0][0028]target为真实值数组,所述真实值数组中数值个数与所述相似度矩阵的向量数相同,其中只有一个为1,其余的为0;
[0029]进一步地,所述基于所述相似度,生成所述目标语句对应的文本相似度计算模型,包括:
[0030]通过预设损失函数公式,计算所述相似度矩阵和所述真实值数组之间的损失函数,并基于所述损失函数的最小值,生成所述文本相似度计算模型,其中,所述预设损失函
数公式如下:
[0031][0032]L为所述最小化值,n为所述相似度矩阵中的向量数量。
[0033]此外,为实现上述目的,本专利技术还提供一种文本相似度计算模型生成装置,所述文本相似度计算模型生成装置包括:样本类别向量生成模块,用于获取样本数据集对应的第一样本类别向量,并将所述第一样本类别向量进行归一化运算,生成第二样本类别向量;句向量生成模块,用于获取目标语句对应的第一句向量,并通过预训练的语言表征BERT模型将所述句向量归一化,生成第二句向量;相似度计算模块,用于根据所述第二句向量和所述第二样本类别向量计算所述目标语句与所述样本数据集的相似度;模型生成模块,用于基于所述相似度,生成所述目标语句对应的文本相似度计算模型。
[0034]此外,为实现上述目的,本专利技术还提供一种文本相似度计算模型生成设备,所述文本相似度计算模型生成设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的文本相似度计算模型生成程序,其中所述文本相似度计算模型生成程序被所述处理器执行时,实现如上述的文本相似度计算模型生成方法的步骤。
[0035]此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文本相似度计算模型生成程序,其中所述文本相似度计算模型生成程序被处理器执行时,实现如上述的文本相似度计算模型生成方法的步骤。
[0036]本专利技术提供一种文本相似度计算模型生成方法,所述方法获取样本数据集对应的第一样本类别向量,并将所述第一样本类别向量进行归一化运算,生成第二样本类别向量;获取目标语句对应的第一句向量,并通过预训练的语言表征BERT模型将所述句向量归一化,生成第二句向量;根据所述第二句向量和所述第二样本类别向量计算所述目标语句与所述样本数据集的相似度;基于所述相似度,生成所述目标语句对应的文本相似度计算模型。通过上述方式,通过将样本数据与目标语句向量化,并将归一化后的样本类别向量与句向量进行相似度计算,确定了文本相似度计算模型,提高了文本相似度计算模型的可靠性,解决了目前计算文本相似度的模型可靠性低下的技术问题。
附图说明
[0037]图1为本专利技术实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本相似度计算模型生成方法,其特征在于,所述文本相似度计算模型生成方法包括:获取样本数据集对应的第一样本类别向量,并将所述第一样本类别向量进行归一化运算,生成第二样本类别向量;获取目标语句对应的第一句向量,并通过预训练的语言表征BERT模型将所述句向量归一化,生成第二句向量;根据所述第二句向量和所述第二样本类别向量计算所述目标语句与所述样本数据集的相似度;基于所述相似度,生成所述目标语句对应的文本相似度计算模型。2.如权利要求1所述的文本相似度计算模型生成方法,其特征在于,所述获取样本数据集对应的第一样本类别向量,并将所述第一样本类别向量进行归一化运算,生成第二样本类别向量,包括:基于所述样本数据集中包含的类别数量以及每一类别中包含的样本数量,设置所述第一样本类别向量;通过第一预设公式,通过L2范数将所述第一样本类别向量进行归一化,生成所述第二样本类别向量,其中,所述第一预设公式如下:样本类别向量,其中,所述第一预设公式如下:表示第i个归一化的类别向量,C
i
表示未归一化的类别向量,为类别向量的长度。3.如权利要求1所述的文本相似度计算模型生成方法,其特征在于,所述获取目标语句对应的第一句向量,并通过预训练的语言表征BERT模型将所述句向量归一化,生成第二句向量,包括:将所述目标语句输入至所述BERT模型,将输出的结果作为公共语言规范CLS标签;将所述CLS标签映射至所述第二样本类别向量,并基于映射结果,得到所述第一句向量;通过第二预设公式,通过所述L2范数将所述第一句向量进行归一化,生成所述第二句向量,其中,所述第二预设公式如下:向量,其中,所述第二预设公式如下:表示归一化后的所述第二句向量,X表示未归一化的所述第一句向量,表示句向量的长度。4.如权利要求1所述的文本相似度计算模型生成方法,其特征在于,所述根据所述第二句向量和所述第二样本类别向量计算所述目标语句与所述样本数据集的相似度,包括:基于所述第二句向量和所述第二样本类别向量,通过第三预设公式,计算所述相似度,
其中,所述第三预设公式如下:通过所述第三预设公式计算得到结果即为所述目标语句与所述样本数据集的相似度。5.如权利要求1所述的文本相似度计算模型生成方法,其特征在于,所述基于所述相似度,生成所述目标语句对应的文本相似度计算模型...

【专利技术属性】
技术研发人员:田兴黄忠品
申请(专利权)人:宁波牛信网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1