多意图分类的模型训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35221840 阅读:32 留言:0更新日期:2022-10-15 10:39
本发明专利技术涉及自然语言领域,揭露一种多意图分类的模型训练方法、装置、电子设备及可读存储介质,所述方法包括:获取预设意图标签列表、历史用户对话语句及所述历史用户对话语句的真实意图,将所述历史用户对话语句转化为对话文本,拼接所述对话文本与所述预设意图标签列表,得到拼接对话文本;利用预设的多意图分类模型中的BERT模块、多头注意力机制模块及二分类线性模块对所述拼接对话文本进行意图识别,得到多标签文本意图分析结果;计算所述多意图分类模型的损失值,并根据所述损失值调整所述预设的多意图分类模型参数,直到所述损失值小于预设的损失阈值,得到训练完成的多意图分类模型。本发明专利技术可以提高对话文本多意图分类的准确率。确率。确率。

【技术实现步骤摘要】
多意图分类的模型训练方法、装置、电子设备及存储介质


[0001]本专利技术涉及自然语言领域,尤其涉及一种多意图分类的模型训练方法、装置、电子设备及可读存储介质。

技术介绍

[0002]意图识别是对话机器人NLU模块中的关键技术,在外呼场景中,用户语句通常包含一个或多个意图,对该用户语句中的一个或多个意图进行识别可以称之为多意图识别。
[0003]目前常见的多意图识别方法是使用多个二分类器对用户语句进行意图分类,由于缺少注意力机制,因此,该种方法无法关注意图间的关系,意图接近的话很容易输出不相关意图,除此之外,用传统的分类训练方法容易破坏预训练模型存储的用户语句权重,减弱预训练模型泛化能力,从而使得意图识别准确率降低,且传统意图分类没有用到意图标签信息,导致意图识别的准确率变低。

技术实现思路

[0004]本专利技术提供一种多意图分类的模型训练方法、装置、电子设备及可读存储介质,其目的在于提高对话文本多意图分类的准确率。
[0005]为实现上述目的,本专利技术提供的一种多意图分类的模型训练方法,所述方法包括:
[0006]获取预设意图标签列表、历史用户对话语句及所述历史用户对话语句的真实意图,将所述历史用户对话语句转化为对话文本,并将所述对话文本与所述预设意图标签列表按预设规则进行拼接,得到拼接对话文本;
[0007]利用预设的多意图分类模型中的BERT模块提取所述拼接对话文本的特征向量,得到文本向量及多标签向量;
[0008]利用预设的多意图分类模型中的多头注意力机制模块计算所述文本向量与所述多标签向量之间的注意力程度,并根据所述注意力程度,筛选与所述多标签向量关联的所述文本向量,作为文本标签向量;
[0009]利用预设的多意图分类模型中的二分类线性模块,对所述文本标签向量进行分类,得到多标签文本意图分析结果;
[0010]计算所述多标签文本意图分析结果与所述真实意图之间的损失值,并根据所述损失值调整所述预设的多意图分类模型参数后,返回所述利用预设的多意图分类模型中的BERT模块提取所述拼接对话文本的特征向量,得到文本向量及多标签向量的步骤,直到所述损失值小于预设的损失阈值,得到训练完成的多意图分类模型。
[0011]可选地,所述利用预设的多意图分类模型中的多头注意力机制模块计算所述文本向量与所述多标签向量之间的注意力程度,包括:
[0012]利用所述多头注意力机制模块中的第一、二及三预设参数分别对所述文本向量及多标签向量做线性变换,得到文本查询向量、文本关键向量、文本数值向量、标签查询向量、标签关键向量及标签数值向量;
[0013]利用所述多头注意力机制模块中的归一化指数函数对所述文本查询向量、所述文本关键向量及所述文本数值向量进行计算,得到文本权重矩阵;
[0014]利用所述多头注意力机制模块中的归一化指数函数对所述标签查询向量、所述标签关键向量及所述标签数值向量进行计算,得到标签权重矩阵;
[0015]将所述文本权重矩阵与所述标签权重矩阵进行相似度计算,得到所述文本向量与所述多标签向量之间的注意力程度。
[0016]可选地,所述利用预设的多意图分类模型中的BERT模块提取所述拼接对话文本的特征向量,得到文本向量及多标签向量,包括:
[0017]对所述拼接对话文本进行位置编码,得到拼接文本位置编码向量;
[0018]利用所述BERT模块中的编码器对所述拼接文本位置编码向量进行编码,得到拼接文本编码向量;
[0019]利用所述BERT模块中的注意力机制计算所述拼接文本编码向量的权重值,并筛选出权重值超过预设阈值的意图标签作为所述对话文本的意图标签;
[0020]利用所述BERT模块中的解码器对所计算权重值之后的拼接文本编码向量进行解码,得到文本标签向量;
[0021]切分所述文本标签向量,得到文本向量及多标签向量。
[0022]可选地,所述将所述历史用户对话语句转化为对话文本,包括:
[0023]对所述历史用户对话语句进行静音切除及降噪处理,得到可读取对话语句;
[0024]对所述可读取对话语句进行语音分帧,得到语音帧;
[0025]对所述语音帧进行声学特征提取,得到所述语音帧的多维特征向量;
[0026]利用预设的声学模型对所述多维特征向量进行状态识别,得到所述语音帧对应的状态;
[0027]对所述状态进行组合,得到所述语音帧对应的音素;
[0028]对所述音素进行拼接,得到所述语音帧对应的单词;
[0029]对所述单词进行组合,得到对话文本。
[0030]可选地,所述将所述文本标签向量输入至预设层数的二分类线性模块中进行层层分类,得到多标签文本意图分析结果,包括:
[0031]利用所述预设层数的二分类线性模块中的评分函数计算所述文本标签向量的评分;
[0032]根据所述文本标签向量的评分,利用所述预设层数的二分类线性模块中的激活函数判断所述文本标签向量的类别,并将所述文本标签向量的类别作为多标签文本意图分析结果输出。
[0033]可选地,所述将所述对话文本与所述预设意图标签列表按预设规则进行拼接,得到拼接对话文本,包括:
[0034]在所述对话文本首部添加第一预设特殊符号,得到预备对话文本;
[0035]在所述意图标签列表中每个意图标签的间隔及所述意图标签列表首部添加第二预设特殊符号,得到预备意图标签列表;
[0036]将所述预备对话文本与所述预备意图标签列表进行拼接,得到拼接对话文本。
[0037]可选地,所述计算所述多标签文本意图分析结果与所述真实意图之间的损失值之
后,所述方法还包括:
[0038]判断所述损失值是否小于预设的损失阈值;
[0039]当所述损失值小于所述损失阈值时,将所述多意图分类模型作为训练完成的多意图分类模型输出;
[0040]当所述损失值不小于所述损失阈值时,根据所述损失值调整所述预设的多意图分类模型参数。
[0041]为了解决上述问题,本专利技术还提供一种多意图分类的模型训练装置,所述装置包括:
[0042]文本意图拼接模块,用于获取预设意图标签列表、历史用户对话语句及所述历史用户对话语句的真实意图,将所述历史用户对话语句转化为对话文本,并将所述对话文本与所述预设意图标签列表按预设规则进行拼接,得到拼接对话文本;
[0043]多意图分类模型分类模块,用于利用预设的多意图分类模型中的BERT模块提取所述拼接对话文本的特征向量,得到文本向量及多标签向量,利用预设的多意图分类模型中的多头注意力机制模块计算所述文本向量与所述多标签向量之间的注意力程度,并根据所述注意力程度,筛选与所述多标签向量关联的所述文本向量,作为文本标签向量,利用预设的多意图分类模型中的二分类线性模块,对所述文本标签向量进行分类,得到多标签文本意图分析结果;
[0044]模型参数调优模块,用于计算所述多标签文本意图分析结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多意图分类模型训练方法,其特征在于,所述方法包括:获取预设意图标签列表、历史用户对话语句及所述历史用户对话语句的真实意图,将所述历史用户对话语句转化为对话文本,并将所述对话文本与所述预设意图标签列表按预设规则进行拼接,得到拼接对话文本;利用预设的多意图分类模型中的BERT模块提取所述拼接对话文本的特征向量,得到文本向量及多标签向量;利用预设的多意图分类模型中的多头注意力机制模块计算所述文本向量与所述多标签向量之间的注意力程度,并根据所述注意力程度,筛选与所述多标签向量关联的所述文本向量,作为文本标签向量;利用预设的多意图分类模型中的二分类线性模块,对所述文本标签向量进行分类,得到多标签文本意图分析结果;计算所述多标签文本意图分析结果与所述真实意图之间的损失值,并根据所述损失值调整所述预设的多意图分类模型参数后,返回所述利用预设的多意图分类模型中的BERT模块提取所述拼接对话文本的特征向量,得到文本向量及多标签向量的步骤,直到所述损失值小于预设的损失阈值,得到训练完成的多意图分类模型。2.如权利要求1所述的多意图分类的模型训练方法,其特征在于,所述利用预设的多意图分类模型中的多头注意力机制模块计算所述文本向量与所述多标签向量之间的注意力程度,包括:利用所述多头注意力机制模块中的第一、二及三预设参数分别对所述文本向量及多标签向量做线性变换,得到文本查询向量、文本关键向量、文本数值向量、标签查询向量、标签关键向量及标签数值向量;利用所述多头注意力机制模块中的归一化指数函数对所述文本查询向量、所述文本关键向量及所述文本数值向量进行计算,得到文本权重矩阵;利用所述多头注意力机制模块中的归一化指数函数对所述标签查询向量、所述标签关键向量及所述标签数值向量进行计算,得到标签权重矩阵;将所述文本权重矩阵与所述标签权重矩阵进行相似度计算,得到所述文本向量与所述多标签向量之间的注意力程度。3.如权利要求1所述的多意图分类的模型训练方法,其特征在于,所述利用预设的多意图分类模型中的BERT模块提取所述拼接对话文本的特征向量,得到文本向量及多标签向量,包括:对所述拼接对话文本进行位置编码,得到拼接文本位置编码向量;利用所述BERT模块中的编码器对所述拼接文本位置编码向量进行编码,得到拼接文本编码向量;利用所述BERT模块中的注意力机制计算所述拼接文本编码向量的权重值,并筛选出权重值超过预设阈值的意图标签作为所述对话文本的意图标签;利用所述BERT模块中的解码器对所计算权重值之后的拼接文本编码向量进行解码,得到文本标签向量;切分所述文本标签向量,得到文本向量及多标签向量。4.如权利要求1所述的多意图分类的模型训练方法,其特征在于,所述将所述历史用户
对话语句转化为对话文本,包括:对所述历史用户对话语句进行静音切除及降噪处理,得到可读取对话语句;对所述可读取对话语句进行语音分帧,得到语音帧;对所述语音帧进行声学特征提取,得到所述语音帧的多维特征向量;利用预设的声学模型对所述多维特征向量进行状态识别,得到所述语音帧对应的状态;对所述状态进行组合,得到所述语音帧对应的音素;对所述音素进行拼接,得...

【专利技术属性】
技术研发人员:王烨王燕蒙李剑锋王少军
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1