语言模型的训练方法、文本预测方法、装置、设备和介质制造方法及图纸

技术编号:46443314 阅读:13 留言:0更新日期:2025-09-19 20:44
本申请公开了一种语言模型的训练方法、文本预测方法、装置、设备和介质,涉及机器学习领域。该方法包括:获取第一对话内容;通过第一语言模型对所述第一对话内容进行答复内容预测,得到第一预测结果;通过第二语言模型对所述第一对话内容进行答复内容预测,得到第二预测结果;基于所述第一概率分布和所述第二概率分布之间的概率分布差异,对所述第二概率分布进行概率调整,得到所述第一对话内容对应的答复预测结果。通过比较不同语言模型输出的概率分布差异,对当前语言模型输出的概率分布进行调整,从而降低输出结果中包含历史语料库中答复内容的概率,并提高输出结果中包含更新语料库中答复内容的概率,进而提高文本预测结果的准确度。

【技术实现步骤摘要】

本申请实施例涉及机器学习领域,特别涉及一种语言模型的训练方法、文本预测方法、装置、设备和介质


技术介绍

1、答复内容预测是指通过训练完成的语言模型度输入的对话内容进行答复预测,得到对话内容对应的答复结果。随着知识的不断更新,同一对话内容对应的答复结果也会有所改变,例如:原有知识为:a城的市长为a先生,经过改选后,现有知识为:a城的市长为b先生,因此,当对话内容为a市当前市长是谁的情况下,将从“a城的市长为a先生”变为“a城的市长为b先生”。

2、在相关技术中,针对原有知识更新的情况下,以更新后的知识为训练数据对语言模型进行更新训练,得到更新后的语言模型,用于输出经过知识更新后的答复结果。

3、然而,由于语言模型是基于原有知识训练得到的,因此即使通过采用更新后的知识对语言模型进行更新训练,还是会存在更新后的语言模型输出原有知识对应的答复结果,导致文本预测的准确度较低。


技术实现思路

1、本申请实施例提供了一种语言模型的训练方法、文本预测方法、装置、设备和介质,能够通过对语言模型输出的概本文档来自技高网...

【技术保护点】

1.一种文本预测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述第一概率分布和所述第二概率分布之间的概率分布差异,对所述第二概率分布进行概率调整,得到所述第一对话内容对应的答复预测结果,包括:

3.根据权利要求2所述的方法,其特征在于,所述字符解码顺序对应多个解码时刻,所述答复预测结果中包括所述多个解码时刻的输出字符,所述第二预测结果中包括所述多个第二字符属于第n个解码时刻输出字符的第n个第二概率分布,所述第一预测结果中包括所述多个第一字符属于所述第n个解码时刻输出字符的第n个第一概率分布,n为正整数;</p>

4.根据...

【技术特征摘要】

1.一种文本预测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述第一概率分布和所述第二概率分布之间的概率分布差异,对所述第二概率分布进行概率调整,得到所述第一对话内容对应的答复预测结果,包括:

3.根据权利要求2所述的方法,其特征在于,所述字符解码顺序对应多个解码时刻,所述答复预测结果中包括所述多个解码时刻的输出字符,所述第二预测结果中包括所述多个第二字符属于第n个解码时刻输出字符的第n个第二概率分布,所述第一预测结果中包括所述多个第一字符属于所述第n个解码时刻输出字符的第n个第一概率分布,n为正整数;

4.根据权利要求3所述的方法,其特征在于,所述获取所述第n个第一概率分布和所述第n个第二概率分布之间的目标分布差异,包括:

5.根据权利要求3所述的方法,其特征在于,所述更新语料库是在所述历史语料库的基础上,对关键内容进行知识更新后得到的语料库;

6.根据权利要求3所述的方法,其特征在于,所述方法还包括:

7.根据权利要求3所述的方法,其特征在于,所述目标分布差异中包括所述多个第二字符与所述多个第一字符分别对应的概率差值;

8.根据权利要求2所述的方法,其特征在于,所述基于字符解码顺序和所述概率分布差异对所述第二概率分布进行概率调整,得到所述答复预测结果,包括:

9.根据权利要求1至8任一所述的方法...

【专利技术属性】
技术研发人员:孙增奎刘宜进孟凡东陈钰枫徐金安
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1