一种优化模型的生成方法和设备技术

技术编号:28711051 阅读:15 留言:0更新日期:2021-06-06 00:09
本发明专利技术实施例提出了一种优化模型的生成方法和设备,该方法包括:获取训练数据;将训练数据组织;将用户问题类型与知识库中问题类型通过第一字符拼接成整体,并在整体的首尾分别加入第二字符与第一字符作为输入;基于输入使用BERT进行建模得到编码后的向量;选择第二字符对应的向量作为特征向量;将特征向量分别输入用于文本相似度计算的第一全连接层与用于意图分类的第二全连接层;基于文本相似度得分与意图分类得分以及联合第一全连接层与第二全连接层的模型的损失函数对模型进行训练;从训练得到的模型中选择F1值最高的模型作为最佳模型。本方案提高模型文本匹配的性能。本方案提高模型文本匹配的性能。本方案提高模型文本匹配的性能。

【技术实现步骤摘要】
一种优化模型的生成方法和设备


[0001]本专利技术涉及模型训练
,具体涉及一种优化模型的生成方法和设备。

技术介绍

[0002]文本匹配任务是检索式问答系统中的核心任务,通过计算用户问题与知识库中问题的匹配度,返回用户问题对应的最佳答案。其中,BERT(一种语言模型)模型是基于大规模语料预训练的双向语言模型,通过微调可迁移至文本匹配任务。目前基于BERT模型微调是文本匹配任务的主流方法。
[0003]但是目前检索式问答系统中的文本匹配模型直接将用户问题作为输入,没有充分利用用户问题隐含的意图信息,这导致准确率不够。
[0004]因此,需要有一种更好的方法来解决现有技术中的问题。

技术实现思路

[0005]本专利技术提供一种优化模型的生成方法和设备,能够解决现有技术中准确率的技术问题。
[0006]本专利技术解决上述技术问题的技术方案如下:
[0007]本专利技术实施例提出了一种优化模型的生成方法,包括:
[0008]获取训练数据;
[0009]将所述训练数据组织成用户问题、知识库中问题、用户问题的意图类别标签和相似度类别标签;
[0010]将所述用户问题类型与所述知识库中问题类型通过第一字符拼接成整体,并在所述整体的首尾分别加入第二字符与所述第一字符作为输入;
[0011]基于所述输入使用BERT进行建模得到编码后的向量;
[0012]选择所述第二字符对应的所述向量作为特征向量;
[0013]将所述特征向量分别输入用于文本相似度计算的第一全连接层与用于意图分类的第二全连接层,以得到文本相似度得分与意图分类得分;
[0014]基于所述文本相似度得分与所述意图分类得分以及联合第一全连接层与第二全连接层的模型的损失函数对所述模型进行训练;
[0015]从训练得到的模型中选择F1值最高的模型作为最佳模型。
[0016]在一个具体的实施例中,所述文本相似度得分通过以下公式确定:
[0017]y
similarity
=Softmax(F
similarity
(h
i
));
[0018]其中,y
similarity
为所述文本相似度得分;h
i
为特征向量;F
similarity
为用于文本相似度计算的第一全连接层。
[0019]在一个具体的实施例中,所述意图分类得分通过以下公式确定:
[0020]y
intent
=Softmax(F
intent
(h
i
));
[0021]其中,y
intent
为所述意图分类得分;h
i
为特征向量;F
intent
为用于意图分类的第二全
连接层。
[0022]在一个具体的实施例中,所述损失函数为:
[0023]L=αL
similarity
+(1

α)L
intent

[0024]其中,L为联合第一全连接层与第二全连接层的模型的损失;L
similarity
为文本匹配任务的损失;L
intent
为意图分类任务的损失,α(0≤α≤1)为系数参数,用于控制L
similarity
与L
intent
两种损失的比例。
[0025]在一个具体的实施例中,所述文本匹配任务的损失为:
[0026][0027]其中,N为样本个数,i为训练数据中第i(1≤i≤N)条样本,y
i
为样本相似度类别标签,y

i
为模型预测正样本的概率。
[0028]在一个具体的实施例中,所述意图分类任务的损失为:
[0029][0030]其中,K为样本意图类别总数,j为意图类别中的第j(1≤j≤K)个类别,l
j
为样本意图类别标签,p
j
为模型计算的意图类别是j的概率。
[0031]在一个具体的实施例中,所述模型的网络参数是通过反向传播算法更新的。
[0032]本专利技术实施例还提出了一种优化模型的生成设备,包括:
[0033]获取模块,用于获取训练数据;
[0034]组织模块,用于将所述训练数据组织成用户问题、知识库中问题、用户问题的意图类别标签和相似度类别标签;
[0035]拼接模块,用于将所述用户问题类型与所述知识库中问题类型通过第一字符拼接成整体,并在所述整体的首尾分别加入第二字符与所述第一字符作为输入;
[0036]向量模块,用于基于所述输入使用BERT进行建模得到编码后的向量;
[0037]选择模块,用于选择所述第二字符对应的所述向量作为特征向量;
[0038]输入模块,用于将所述特征向量分别输入用于文本相似度计算的第一全连接层与用于意图分类的第二全连接层,以得到文本相似度得分与意图分类得分;
[0039]训练模块,用于基于所述文本相似度得分与所述意图分类得分以及联合第一全连接层与第二全连接层的模型的损失函数对所述模型进行训练;
[0040]处理模块,用于从训练得到的模型中选择F1值最高的模型作为最佳模型。
[0041]在一个具体的实施例中,所述文本相似度得分通过以下公式确定:
[0042]y
similarity
=Softmax(F
similarity
(h
i
));
[0043]其中,y
similarity
为所述文本相似度得分;h
i
为特征向量;F
similarity
为用于文本相似度计算的第一全连接层。
[0044]在一个具体的实施例中,所述意图分类得分通过以下公式确定:
[0045]y
intent
=Softmax(F
intent
(h
i
));
[0046]其中,y
intent
为所述意图分类得分;h
i
为特征向量;F
intent
为用于意图分类的第二全
连接层。
[0047]本专利技术的有益效果是:
[0048]本专利技术实施例提出了一种优化模型的生成方法和设备,该方法包括:获取训练数据;将所述训练数据组织成用户问题、知识库中问题、用户问题的意图类别标签和相似度类别标签;将所述用户问题类型与所述知识库中问题类型通过第一字符拼接成整体,并在所述整体的首尾分别加入第二字符与所述第一字符作为输入;基于所述输入使用BERT进行建模得到编码后的向量;选择所述第二字符对应的所述向量作为特征向量;将所述特征向量分别输入用于文本相似度计算的第一全连接层与用于意图分类的第二全连接本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种优化模型的生成方法,其特征在于,包括:获取训练数据;将所述训练数据组织成用户问题、知识库中问题、用户问题的意图类别标签和相似度类别标签;将所述用户问题类型与所述知识库中问题类型通过第一字符拼接成整体,并在所述整体的首尾分别加入第二字符与所述第一字符作为输入;基于所述输入使用BERT进行建模得到编码后的向量;选择所述第二字符对应的所述向量作为特征向量;将所述特征向量分别输入用于文本相似度计算的第一全连接层与用于意图分类的第二全连接层,以得到文本相似度得分与意图分类得分;基于所述文本相似度得分与所述意图分类得分以及联合第一全连接层与第二全连接层的模型的损失函数对所述模型进行训练;从训练得到的模型中选择F1值最高的模型作为最佳模型。2.如权利要求1所述的方法,其特征在于,所述文本相似度得分通过以下公式确定:y
similarity
=Softmax(F
similarity
(h
i
));其中,y
similarity
为所述文本相似度得分;h
i
为特征向量;F
similarity
为用于文本相似度计算的第一全连接层。3.如权利要求1所述的方法,其特征在于,所述意图分类得分通过以下公式确定:y
intent
=Softmax(F
intent
(h
i
));其中,y
intent
为所述意图分类得分;h
i
为特征向量;F
intent
为用于意图分类的第二全连接层。4.如权利要求1所述的方法,其特征在于,所述损失函数为:L=αL
similarity
+(1

α)L
intent
;其中,L为联合第一全连接层与第二全连接层的模型的损失;L
similarity
为文本匹配任务的损失;L
intent
为意图分类任务的损失,α(0≤α≤1)为系数参数,用于控制L
similarity
与L
intent
两种损失的比例。5.如权利要求4所述的方法,其特征在于,所述文本匹配任务的损失为:其中,N为样本个数,i为训练数据...

【专利技术属性】
技术研发人员:姜姗刘升平梁家恩
申请(专利权)人:厦门云知芯智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1