当前位置: 首页 > 专利查询>之江实验室专利>正文

一种模型训练和业务执行的方法、装置、介质及设备制造方法及图纸

技术编号:37679647 阅读:23 留言:0更新日期:2023-05-26 04:46
本说明书公开了一种模型训练和业务执行的方法、装置、介质及设备。所述模型训练和业务执行的方法包括:将样本语句输入待训练业务模型,确定样本语句对应的初始语义特征,并对初始语义特征进行处理,基于第一膨胀系数和第二膨胀系数对所述处理后特征进行卷积处理,得到中间特征,基于第三膨胀系数和第四膨胀系数对所述中间特征进行卷积处理,得到目标特征,根据目标特征,确定头尾指针矩阵以及字间关系矩阵,根据头尾指针矩阵以及字间关系矩阵,确定目标特征矩阵,基于目标特征矩阵,识别样本语句中包含的实体对象,以最小化识别出的实体对象与样本语句中实际包含的实体对象之间的偏差为优化目标,对业务模型进行训练。对业务模型进行训练。对业务模型进行训练。

【技术实现步骤摘要】
一种模型训练和业务执行的方法、装置、介质及设备


[0001]本说明书涉及计算机
,尤其涉及一种模型训练和业务执行的方法、装置、介质及设备。

技术介绍

[0002]随着智能对话技术的发展,自然语言识别的准确性也得到了不断的提升,而意图识别任务和槽位填充任务作为自然语言识别业务的重要组成部分,是否能够对语句中的实体对象以及对话语句的意图进行准确的识别决定了是否能够准确的执行整个自然语言处理业务。
[0003]目前通常会对用户输入的语句进行实体识别,从而确定该语句中包含的实体对象以及实体类型,进而根据该实体对象以及实体类型执行业务,但是目前的实体识别方法的准确性较低,很难准确的识别出的对话语句中包含的各个实体,甚至会影响最终的业务执行结果,降低用户体验。
[0004]因此,如何对用户输入的语句进行准确的识别以及提取,提高自然语言处理业务的准确性,进而提高用户体验,是一个亟待解决的问题。

技术实现思路

[0005]本说明书提供一种模型训练和业务执行的方法、装置、介质及设备,以部分的解决现有技术存在的上述问题。
[0006]本说明书采用下述技术方案:本说明书提供了一种模型训练的方法,包括:获取样本语句;将所述样本语句输入待训练业务模型,确定所述样本语句对应的初始语义特征,并对所述初始语义特征进行处理,得到处理后特征;基于第一膨胀系数和第二膨胀系数对所述处理后特征进行卷积处理,得到中间特征,基于第三膨胀系数和第四膨胀系数对所述中间特征进行卷积处理,得到目标特征,其中,所述第一膨胀系数和第二膨胀系数的最小值大于所述第三膨胀系数和第四膨胀系数的最大值;根据所述目标特征,确定头尾指针矩阵,以及,根据所述处理后特征,确定字间关系矩阵,所述头尾指针矩阵用于表征所述样本语句中各文字为实体对象的起始字的概率和末尾字的概率,所述字间关系矩阵用于表征各文字之间的语义连接关系和位置关系;根据所述头尾指针矩阵以及所述字间关系矩阵,确定目标特征矩阵;基于所述目标特征矩阵,识别所述样本语句中包含的实体对象,以最小化从所述样本语句中识别出的实体对象与所述样本语句中实际包含的实体对象之间的偏差为优化目标,对所述业务模型进行训练。
[0007]可选地,所述业务模型包括:编码层、目标特征提取层以及解码层中的至少一种。
[0008]可选地,确定所述样本语句对应的初始语义特征,并对所述初始语义特征进行处理,得到处理后特征,具体包括:将所述样本语句输入所述编码层,确定所述样本语句对应的初始语义特征,并对所述初始语义特征进行处理,得到处理后特征,所述处理后特征为经过编码后的语义特征;基于所述目标特征矩阵,识别所述样本语句中包含的实体对象,具体包括:将所述目标特征矩阵输入所述解码层,对所述目标特征矩阵进行解析,识别所述样本语句中包含的实体对象。
[0009]可选地,基于第一膨胀系数和第二膨胀系数对所述处理后特征进行卷积处理,得到中间特征,基于第三膨胀系数和第四膨胀系数对所述中间特征进行卷积处理,得到目标特征,具体包括:将所述处理后特征输入所述目标特征提取层,基于所述第一膨胀系数和第二膨胀系数对所述处理后特征进行卷积处理,得到所述中间特征,基于所述第三膨胀系数和第四膨胀系数对所述中间特征进行卷积处理,得到所述目标特征。
[0010]可选地,所述编码层包括:初始特征提取层;将所述样本语句输入待训练业务模型,确定所述样本语句对应的初始语义特征,具体包括:将所述样本语句以及所述样本语句的前文语句输入所述初始特征提取层,确定所述样本语句对应的第一语义特征以及所述前文语句对应的第二语义特征;将所述第一语义特征以及所述第二语义特征进行拼接,根据拼接后的语义特征确定所述初始语义特征。
[0011]可选地,将所述第一语义特征以及所述第二语义特征进行拼接,根据拼接后的语义特征确定所述初始语义特征,具体包括:将所述第二语义特征按照指定维度进行平均处理,并将平均处理后的第二语义特征进行扩展,得到扩展后的第二语义特征;将所述扩展后的第二语义特征与所述第一语义特征按照最后一个特征维度进行拼接,并将拼接后的语义特征输入长短记忆网络,得到所述初始语义特征。
[0012]可选地,在将所述样本语句以及所述样本语句的前文语句输入所述初始特征提取层之前,所述方法还包括:获取经过预训练的特征提取模型对应的模型参数;将所述模型参数加载到所述初始特征提取层。
[0013]可选地,对所述特征提取模型进行预训练,具体包括:获取预训练样本语句;对所述预训练样本语句进行掩码处理,得到掩码后语句;将所述预训练样本语句以及所述掩码后语句输入所述特征提取模型,得到所述预训练样本语句对应的语义特征以及所述掩码后语句对应的语义特征;对所述预训练样本语句对应的语义特征进行至少一次降采样处理,得到每次降采样后的语义特征;将每次降采样后的语义特征以及所述掩码后语句对应的语义特征作为正样本,将当前训练批次中除所述预训练样本语句外的其余预训练样本语句对应的语义特征作为负
样本;以最小化所述预训练样本语句对应的语义特征与所述正样本之间的偏差,以及最大化所述预训练样本语句对应的语义特征与所述负样本之间的偏差为优化目标,对所述特征提取模型进行训练。
[0014]可选地,对所述特征提取模型进行训练,具体包括:根据所述预训练样本语句对应的语义特征与所述正样本之间的偏差,以及所述预训练样本语句对应的语义特征与所述负样本之间的偏差,确定所述特征提取模型的对比学习损失值;通过所述特征提取模型,对所述掩码后语句中被掩码的字词进行预测,根据预测出的字词与被掩码的实际字词之间的偏差,确定所述特征提取模型的掩码预测损失值;根据所述对比学习损失值以及所述掩码预测损失值,确定所述特征提取模型的综合损失值;以最小化所述综合损失值为优化目标,对所述特征提取模型进行训练。
[0015]可选地,所述编码层还包括:归一化层以及表征融合层;将所述初始语义特征输入所述归一化层,得到归一化语义特征;基于奇异值分解算法对所述归一化语义特征进行分解,在分解出的各特征向量中确定出用于表征所述样本语句中各文字在时序和位置上对应空间信息的左酉矩阵向量,作为所述样本语句对应的位置编码;通过所述表征融合层,将所述归一化语义特征与所述位置编码进行拼接,得到所述处理后特征。
[0016]可选地,将所述初始语义特征输入所述归一化层,得到归一化语义特征,具体包括:根据所述初始语义特征,确定所述归一化层对应的第一参数以及第二参数;根据所述初始语义特征、所述第一参数、所述第二参数、各初始语义特征的均值以及各初始语义特征的方差,确定所述归一化语义特征。
[0017]可选地,将所述归一化语义特征与所述位置编码特征进行拼接,得到所述处理后特征,具体包括:创建掩码矩阵,所述掩码矩阵中左下角元素的元素值与右上角元素的元素值不同;根据所述掩码矩阵,确定针对所述初始语义特征的区域掩码,所述区域掩码用于对各实体对象中具有首尾字关系的特征与具有相邻字关系的特征进行区分;通过所述表征融合层,将所述归一化语义特征、所述位置编码本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练的方法,其特征在于,包括:获取样本语句;将所述样本语句输入待训练业务模型,确定所述样本语句对应的初始语义特征,并对所述初始语义特征进行处理,得到处理后特征;基于第一膨胀系数和第二膨胀系数对所述处理后特征进行卷积处理,得到中间特征,基于第三膨胀系数和第四膨胀系数对所述中间特征进行卷积处理,得到目标特征,其中,所述第一膨胀系数和第二膨胀系数的最小值大于所述第三膨胀系数和第四膨胀系数的最大值;根据所述目标特征,确定头尾指针矩阵,以及,根据所述处理后特征,确定字间关系矩阵,所述头尾指针矩阵用于表征所述样本语句中各文字为实体对象的起始字的概率和末尾字的概率,所述字间关系矩阵用于表征各文字之间的语义连接关系和位置关系;根据所述头尾指针矩阵以及所述字间关系矩阵,确定目标特征矩阵;基于所述目标特征矩阵,识别所述样本语句中包含的实体对象,以最小化从所述样本语句中识别出的实体对象与所述样本语句中实际包含的实体对象之间的偏差为优化目标,对所述业务模型进行训练。2.如权利要求1所述的方法,其特征在于,所述业务模型包括:编码层、目标特征提取层以及解码层中的至少一种。3.如权利要求2所述的方法,其特征在于,确定所述样本语句对应的初始语义特征,并对所述初始语义特征进行处理,得到处理后特征,具体包括:将所述样本语句输入所述编码层,确定所述样本语句对应的初始语义特征,并对所述初始语义特征进行处理,得到处理后特征,所述处理后特征为经过编码后的语义特征;基于所述目标特征矩阵,识别所述样本语句中包含的实体对象,具体包括:将所述目标特征矩阵输入所述解码层,对所述目标特征矩阵进行解析,识别所述样本语句中包含的实体对象。4.如权利要求1所述的方法,其特征在于,基于第一膨胀系数和第二膨胀系数对所述处理后特征进行卷积处理,得到中间特征,基于第三膨胀系数和第四膨胀系数对所述中间特征进行卷积处理,得到目标特征,具体包括:将所述处理后特征输入所述目标特征提取层,基于所述第一膨胀系数和第二膨胀系数对所述处理后特征进行卷积处理,得到所述中间特征,基于所述第三膨胀系数和第四膨胀系数对所述中间特征进行卷积处理,得到所述目标特征。5.如权利要求2所述的方法,其特征在于,所述编码层包括:初始特征提取层;将所述样本语句输入待训练业务模型,确定所述样本语句对应的初始语义特征,具体包括:将所述样本语句以及所述样本语句的前文语句输入所述初始特征提取层,确定所述样本语句对应的第一语义特征以及所述前文语句对应的第二语义特征;将所述第一语义特征以及所述第二语义特征进行拼接,根据拼接后的语义特征确定所述初始语义特征。6.如权利要求5所述的方法,其特征在于,将所述第一语义特征以及所述第二语义特征进行拼接,根据拼接后的语义特征确定所述初始语义特征,具体包括:
将所述第二语义特征按照指定维度进行平均处理,并将平均处理后的第二语义特征进行扩展,得到扩展后的第二语义特征;将所述扩展后的第二语义特征与所述第一语义特征按照最后一个特征维度进行拼接,并将拼接后的语义特征输入长短记忆网络,得到所述初始语义特征。7.如权利要求5所述的方法,其特征在于,在将所述样本语句以及所述样本语句的前文语句输入所述初始特征提取层之前,所述方法还包括:获取经过预训练的特征提取模型对应的模型参数;将所述模型参数加载到所述初始特征提取层。8.如权利要求7所述的方法,其特征在于,对所述特征提取模型进行预训练,具体包括:获取预训练样本语句;对所述预训练样本语句进行掩码处理,得到掩码后语句;将所述预训练样本语句以及所述掩码后语句输入所述特征提取模型,得到所述预训练样本语句对应的语义特征以及所述掩码后语句对应的语义特征;对所述预训练样本语句对应的语义特征进行至少一次降采样处理,得到每次降采样后的语义特征;将每次降采样后的语义特征以及所述掩码后语句对应的语义特征作为正样本,将当前训练批次中除所述预训练样本语句外的其余预训练样本语句对应的语义特征作为负样本;以最小化所述预训练样本语句对应的语义特征与所述正样本之间的偏差,以及最大化所述预训练样本语句对应的语义特征与所述负样本之间的偏差为优化目标,对所述特征提取模型进行训练。9.如权利要求8所述的方法,其特征在于,对所述特征提取模型进行训练,具体包括:根据所述预训练样本语句对应的语义特征与所述正样本之间的偏差,以及所述预训练样本语句对应的语义特征与所述负样本之间的偏差,确定所述特征提取模型的对比学习损失值;通过所述特征提取模型,对所述掩码后语句中被掩码的字词进行预测,根据预测出的字词与被掩码的实际字词之间的偏差,确定所述特征提取模型的掩码预测损失值;根据所述对比学习损失值以及所述掩码预测损失值,确定所述特征提取模型的综合损失值;以最小化所述综合损失值为优化目标,对所述特征提取模型进行训练。10.如权利要求2所述的方法,其特征在于,所述编码层还包括:归一化层以及表征融合层;对所述初始语义特征进行处理,得到处理后特征,具体包括:将所述初始语义特征输入所述归一化层,得到归一化语义特征;基于奇异值分解算法对所述归一化语义特征进行分解,在分解出的各特征向量中确定出用于表征所述样本语句中各...

【专利技术属性】
技术研发人员:陆陈昊邱鹏王一张杨非潘淑唐娜娜王娅静
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1