语言模型的训练方法、确定用户意图的方法和相关装置制造方法及图纸

技术编号:36120359 阅读:13 留言:0更新日期:2022-12-28 14:25
本发明专利技术公开了一种语言模型的训练方法、确定用户意图的方法和相关装置,涉及计算机技术领域。该方法的一具体实施方式包括:对原始文本进行数据增强和文本转换,生成原始训练样本、第一训练样本和第二训练样本;将原始训练样本作为第一聚类算法的输入,第一训练样本和第二训练样本作为第一对比学习算法和第二对比学习算法的输入,得到总体损失函数;以总体损失函数对语言模型进行训练。该实施方式能够提高语言模型的转换准确性,保证簇内距离较小并且簇间距离较大,可以有效的区分不同的簇,提高聚类算法的鲁棒性差,从而使得聚类的结果更加准确,降低找到符合条件的新意图来扩充意图库的难度,提升用户体验。提升用户体验。提升用户体验。

【技术实现步骤摘要】
语言模型的训练方法、确定用户意图的方法和相关装置


[0001]本专利技术涉及计算机
,尤其涉及一种语言模型的训练方法、确定用户意图的方法和相关装置。

技术介绍

[0002]在日常的智能客服算法分析和优化的过程中,需要识别用户的问题属于哪一个用户意图,从而根据判断得到的用户意图来为用户提供特定的服务。通过语言模型将用户问题转换为用户问题向量,对大规模的用户问题向量进行聚类,然后人工分析这些聚类出来的每个问题簇,进而挖掘出新的用户意图,更新到意图库中,以此来不断的优化智能客服的意图识别效果。目前的语言模型得到的用户问题向量在聚类中无法保证簇内距离较小和簇间距离较大,导致通过聚类算法得到的意图簇的簇内的用户问题不够相似(簇内距离不够小)、簇与簇之间的区分度不是很明显(簇间距离不够大)、人工难以找到符合条件的新意图来扩充意图库,最后使得智能客服无法满足不断增加的大规模的用户需求。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:
[0004]语言模型的转换准确性较差,无法保证簇内距离较小并且簇间距离较大,无法有效的区分不同的簇,聚类算法的鲁棒性差,从而导致聚类的结果不准确,找到符合条件的新意图来扩充意图库的难度较大,用户体验差。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供一种语言模型的训练方法、确定用户意图的方法和相关装置,能够提高语言模型的转换准确性,保证簇内距离较小并且簇间距离较大,可以有效的区分不同的簇,提高聚类算法的鲁棒性差,从而使得聚类的结果更加准确,降低找到符合条件的新意图来扩充意图库的难度,提升用户体验。
[0006]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种语言模型的训练方法。
[0007]一种语言模型的训练方法,包括:对原始文本进行数据增强和文本转换,生成原始训练样本、第一训练样本和第二训练样本;将所述原始训练样本作为第一聚类算法的输入,所述第一训练样本和所述第二训练样本作为第一对比学习算法和第二对比学习算法的输入,得到总体损失函数;以所述总体损失函数对所述语言模型进行训练。
[0008]可选地,所述对原始文本进行数据增强和文本转换,生成原始训练样本、第一训练样本和第二训练样本,包括:对所述原始文本进行同义词替换或反向翻译,得到与所述原始文本对应的第一文本和第二文本;分别将所述原始文本、所述第一文本和所述第二文本输入至所述语言模型,生成所述原始训练样本、与所述原始训练样本对应的所述第一训练样本和所述第二训练样本。
[0009]可选地,所述将所述原始训练样本作为第一聚类算法的输入,所述第一训练样本和所述第二训练样本作为第一对比学习算法和第二对比学习算法的输入,得到总体损失函
数,包括:将所述原始训练样本输入至所述第一聚类算法,通过所述第一聚类算法的聚类结果计算第一损失函数;将所述第一训练样本和所述第二训练样本作为第一对比学习算法的输入,计算第二损失函数;将所述第一训练样本和所述第二训练样本作为第二对比学习算法的输入,计算第三损失函数;计算所述第一损失函数、所述第二损失函数、所述第三损失函数的和,得到所述总体损失函数。
[0010]可选地,所述将所述第一训练样本和所述第二训练样本作为第一对比学习算法的输入,计算第二损失函数,包括:将所述第一训练样本和所述第二训练样本输入至所述第一对比学习算法的线性层,得到对应的所述第一训练样本的第一向量和所述第二训练样本的第一向量;将对应同一所述原始训练样本的所述第一训练样本的第一向量和所述第二训练样本的第一向量作为相似对,将不对应同一所述原始训练样本的所述第一训练样本的第一向量和所述第二训练样本的第一向量作为不相似对,计算各所述第一训练样本和各所述第二训练样本的第二子损失函数;计算所有所述第一训练样本和所有所述第二训练样本的第二子损失函数的平均值并除以2,得到所述第二损失函数。
[0011]可选地,所述将所述第一训练样本和所述第二训练样本作为第二对比学习算法的输入,计算第三损失函数,包括:将所述第一训练样本和所述第二训练样本输入至所述第二对比学习算法的线性层,得到对应的所述第一训练样本的第二向量和所述第二训练样本的第二向量;将对应同一所述原始训练样本的所述第一训练样本的第二向量和所述第二训练样本的第二向量作为相似对,将不对应同一所述原始训练样本的所述第一训练样本的第二向量和所述第二训练样本的第二向量作为不相似对,计算各所述第一训练样本和各所述第二训练样本的第三子损失函数;计算所有所述第一训练样本和所有所述第二训练样本的第三子损失函数的平均值并除以2,得到所述第三损失函数。
[0012]根据本专利技术实施例的另一方面,提供了一种利用本专利技术实施例的所述语言模型的训练方法所训练的语言模型来确定用户意图的方法。
[0013]一种利用所述语言模型的训练方法所训练的语言模型来确定用户意图的方法,包括:将用户问题输入至训练后的所述语言模型中,生成对应的用户问题向量;通过第二聚类算法对所述用户问题向量进行分类,生成一个或多个用户问题簇;分析所述用户问题簇,得到与所述问题簇对应的用户意图。
[0014]根据本专利技术实施例的又一方面,提供了一种语言模型的训练装置。
[0015]一种语言模型的训练装置,包括:训练样本生成模块,用于对原始文本进行数据增强和文本转换,生成原始训练样本、第一训练样本和第二训练样本;损失函数计算模块,用于将所述原始训练样本作为第一聚类算法的输入,所述第一训练样本和所述第二训练样本作为第一对比学习算法和第二对比学习算法的输入,得到总体损失函数;训练模块,用于以所述总体损失函数对所述语言模型进行训练。
[0016]可选地,所述训练样本生成模块还用于:对所述原始文本进行同义词替换或反向翻译,得到与所述原始文本对应的第一文本和第二文本;分别将所述原始文本、所述第一文本和所述第二文本输入至所述语言模型,生成所述原始训练样本、与所述原始训练样本对应的所述第一训练样本和所述第二训练样本。
[0017]可选地,所述损失函数计算模块还用于:将所述原始训练样本输入至所述第一聚类算法,通过所述第一聚类算法的聚类结果计算第一损失函数;将所述第一训练样本和所
述第二训练样本作为第一对比学习算法的输入,计算第二损失函数;将所述第一训练样本和所述第二训练样本作为第二对比学习算法的输入,计算第三损失函数;计算所述第一损失函数、所述第二损失函数、所述第三损失函数的和,得到所述总体损失函数。
[0018]可选地,所述损失函数计算模块还用于:将所述第一训练样本和所述第二训练样本输入至所述第一对比学习算法的线性层,得到对应的所述第一训练样本的第一向量和所述第二训练样本的第一向量;将对应同一所述原始训练样本的所述第一训练样本的第一向量和所述第二训练样本的第一向量作为相似对,将不对应同一所述原始训练样本的所述第一训练样本的第一向量和所述第二训练样本的第一向量作为不相似对,计算各所述第一训练样本和各所述第二训练样本的第二子损失函数;计算所有所述第一训练样本和所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语言模型的训练方法,其特征在于,包括:对原始文本进行数据增强和文本转换,生成原始训练样本、第一训练样本和第二训练样本;将所述原始训练样本作为第一聚类算法的输入,所述第一训练样本和所述第二训练样本作为第一对比学习算法和第二对比学习算法的输入,得到总体损失函数;以所述总体损失函数对所述语言模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述对原始文本进行数据增强和文本转换,生成原始训练样本、第一训练样本和第二训练样本,包括:对所述原始文本进行同义词替换或反向翻译,得到与所述原始文本对应的第一文本和第二文本;分别将所述原始文本、所述第一文本和所述第二文本输入至所述语言模型,生成所述原始训练样本、与所述原始训练样本对应的所述第一训练样本和所述第二训练样本。3.根据权利要求1所述的方法,其特征在于,所述将所述原始训练样本作为第一聚类算法的输入,所述第一训练样本和所述第二训练样本作为第一对比学习算法和第二对比学习算法的输入,得到总体损失函数,包括:将所述原始训练样本输入至所述第一聚类算法,通过所述第一聚类算法的聚类结果计算第一损失函数;将所述第一训练样本和所述第二训练样本作为第一对比学习算法的输入,计算第二损失函数;将所述第一训练样本和所述第二训练样本作为第二对比学习算法的输入,计算第三损失函数;计算所述第一损失函数、所述第二损失函数、所述第三损失函数的和,得到所述总体损失函数。4.根据权利要求3所述的方法,其特征在于,所述将所述第一训练样本和所述第二训练样本作为第一对比学习算法的输入,计算第二损失函数,包括:将所述第一训练样本和所述第二训练样本输入至所述第一对比学习算法的线性层,得到对应的所述第一训练样本的第一向量和所述第二训练样本的第一向量;将对应同一所述原始训练样本的所述第一训练样本的第一向量和所述第二训练样本的第一向量作为相似对,将不对应同一所述原始训练样本的所述第一训练样本的第一向量和所述第二训练样本的第一向量作为不相似对,计算各所述第一训练样本和各所述第二训练样本的第二子损失函数;计算所有所述第一训练样本和所有所述第二训练样本的第二子损失函数的平均值并除以2,得到所述第二损失函数。5.根据权利要求3所述的方法,其特征在于,所述将所述第一训练样本和所述第二训练样本作为第二对比学习算法的输入,计...

【专利技术属性】
技术研发人员:黎陈俞晓光宋双永
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1