文本匹配模型的训练方法、意图识别方法及装置制造方法及图纸

技术编号:37637807 阅读:25 留言:0更新日期:2023-05-25 10:04
本申请实施例公开了一种文本匹配模型的训练方法、意图识别方法及装置,方法包括:基于知识库中的标准问题语句构建训练样本集,训练样本集中每个训练样本包括:标准问题语句、同类样本、异类样本;在使用训练样本集对初始文本匹配模型进行多样性阶段的迭代训练过程中,对每个训练样本进行基于线性插值的混合编码处理后输入初始文本匹配模型,输出得到标准问题语句与同类样本之间的第一距离,以及标准问题语句与异类样本之间的第二距离;根据第一距离、第二距离以及损失函数调整文本匹配模型的模型参数,直至损失函数满足设定条件,得到多样性阶段训练后的文本匹配模型。有申请有利于提升文本匹配的准确率。提升文本匹配的准确率。提升文本匹配的准确率。

【技术实现步骤摘要】
文本匹配模型的训练方法、意图识别方法及装置


[0001]本申请涉及机器学习
,尤其涉及一种文本匹配模型的训练方法、意图识别方法及装置。

技术介绍

[0002]语音机器人对话系统是一种对话问答(question&answer,QA)系统,通常由客户向语音机器人提出问题,由语音机器人对客户提出的问题给出回答。在构建语音机器人对话系统时,对客户提出的问题进行准确的意图识别是语音机器人提供优质回答的前提条件,也是系统的难点。
[0003]随着深度学习的发展,一些适用于文本匹配的方法被提出,其中比较经典的有两种:基于表示的方法和基于交互的方法。基于表示的方法,对两段文本分别进行编码得到各自的特征向量,然后通过相似度计算函数或相关结构得到最终匹配关系。基于交互的方法,通过对两段文本进行不同粒度(词语级、短语级等)的交互,然后将各个粒度的匹配结果通过一种结构聚合起来,将此作为一个特征向量得到最终匹配关系。
[0004]不管采用何种的文本匹配方法,一个常见的语音机器人对话系统需要识别客户的诸多意图。在冷启动场景下,语音机器本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本匹配模型的训练方法,其特征在于,包括:基于知识库中的标准问题语句构建训练样本集,所述训练样本集中每个训练样本包括:所述标准问题语句、所述标准问题语句的同类样本、以及所述标准问题语句的异类样本;所述标准问题语句为人工录入的作为标准问题的语句,所述同类样本用于指示与所述标准问题语句相似的语句,所述异类样本用于指示与所述标准问题语句不相似的语句;在使用所述训练样本集对初始文本匹配模型进行多样性阶段的迭代训练过程中,对所述每个训练样本进行基于线性插值的混合编码处理后输入所述初始文本匹配模型,输出得到所述标准问题语句与所述同类样本之间的第一距离,以及所述标准问题语句与所述异类样本之间的第二距离;根据输出的所述第一距离、所述第二距离以及文本匹配模型的损失函数调整所述文本匹配模型的模型参数,直至所述文本匹配模型的损失函数满足设定条件,得到所述多样性阶段训练后的文本匹配模型。2.根据权利要求1所述的方法,其特征在于,所述初始文本匹配模型包括三个结构相同、且共享模型参数的前馈神经网络;在所述多样性阶段的迭代训练过程中,每次迭代训练的具体步骤包括:对所述训练样本中所述标准问题语句、所述同类样本、以及所述异类样本分别进行基于线性插值的混合编码处理,得到各自对应的混合编码矩阵;将所述标准问题语句、所述同类样本、以及所述异类样本各自对应的混合编码矩阵分别输入所述初始文本匹配模型中相对应的前馈神经网络,输出所述标准问题语句与所述同类样本之间的第一距离,以及所述标准问题语句与所述异类样本之间的第二距离;根据输出的所述第一距离、所述第二距离、以及所述文本匹配模型的损失函数,调整所述文本匹配模型的模型参数,所述损失函数用于表征所述标准问题语句与所述同类样本、以及异类样本之间的差异。3.根据权利要求2所述的方法,其特征在于,所述训练样本集中包括第一类训练样本和/或第二训练样本;所述使用所述训练样本集对初始文本匹配模型进行多样性阶段的迭代训练,包括:使用所述训练样本集中第一类训练样本和/或第二类训练样本对所述初始文本匹配模型进行多样性阶段的迭代训练;其中,所述第一类训练样本中所述标准问题语句的同类样本为所述标准问题语句的相似句,以及所述异类样本为所述标准问题语句的不相似句,所述标准问题语句的相似句、以及不相似句预先录入所述知识库中;所述第二类训练样本中所述标准问题语句的同类样本为对所述标准问题语句的相似句进行添加标点符号处理后得到的标点扩充相似句,以及所述异类样本为对所述标准问题语句的不相似句进行添加标点符号处理后得到的标点扩充不相似句。4.根据权利要求2或3所述的方法,其特征在于,所述对所述训练样本中所述标准问题语句、所述同类样本、以及所述异类样本分别进行基于线性插值的混合编码处理,得到各自对应的混合编码矩阵,具体包括:对所述训练样本中所述标准问题语句、所述同类样本、以及所述异类样本分别进行独热one

hot编码,得到各自对应的one

hot编码矩阵;
对所述标准问题语句、所述同类样本、以及所述异类样本各自对应的one

hot编码矩阵分别基于预训练的语言表征模型进行编码,得到各自对应的语言表征模型编码矩阵,再将各自对应的语言表征模型编码矩阵分别与预设的词表向量矩阵相乘并归一化处理,得到各自对应的句编码预测结果矩阵;对所述标准问题语句、所述同类样本、以及所述异类样本各自对应的句编码预测结果矩阵与one

hot编码矩阵进行线性插值处理,得到各自对应的混合编码矩阵。5.根据权利要求4所述的方法,其特征在于,基于线性插值的超参数对所述句编码预测结果矩阵与one

hot编码矩阵进行线性插值处理,所述超参数用于表示所述one

hot编码矩阵在线性插值处理中所占的比例,所述one

hot编码矩阵与所述句编码预测结果矩阵在线性插值处理中所占的比例之和为1;在所述多样性阶段的迭代训练过程中,将所述超参数的参数值初始化设置为最小预设参数值,在基于所述超参数的当前参数值进行迭代训练的情况下,如果所述损失函数的损失下降程度小于设定阈值,则按照设定的调整步长提升所述超参数的当前参数值,直至达到所述超参数的最大预设参数值。6.根据权利要求3所述的方法,其特征在于,使用所述训练样本集对初始文本匹配模型进行至少一个阶段的迭代训练,将最后一个阶段训练后的文本匹配模型作为最终训练完成的文本匹配模型;所述至少一个阶段中每个阶段的迭代训练直至所述文本匹配模型的损失函数满足设定条件;所述至少一个阶段包括所述多样性阶段。7.根据权利要求6所述的方法,其特征在于,所述至少一个阶段还包括基线阶段,所述使用所述训练样本集对初始文本匹配模型进行至少一个阶段的迭代训练,还包括:在所述多样性阶段的迭代训练之前,使用所述训练样本集中第一类训练样本和/或第二类训练样本对待训练的初始文本匹配模型进行基线阶段的迭代训练;在所述基线阶段的迭代训练过程中,每次迭代训练的具体步骤包括:对所述训练样本中所述标准问题语句、所述同类样本、以及所述异类样本分别进行独热one

hot编码,得到各自对应的one

hot编码矩阵,再对各自对应的one

hot编码矩阵分别基于预训练的语言表征模型进行编码,得到各自对应的语言表征模型编码矩阵;将所述...

【专利技术属性】
技术研发人员:丁隆耀蒋宁吴海英权佳成李宽
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1