System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本回复方法和训练样本的生成方法技术_技高网

文本回复方法和训练样本的生成方法技术

技术编号:41295532 阅读:2 留言:0更新日期:2024-05-13 14:44
本申请提供一种文本回复方法和训练样本的生成方法,本申请的方法包括:接收终端设备发送的当前请求文本;根据当前请求文本生成目标问题文本;调用预先训练的语言模型,并根据语言模型对问题文本进行处理,得到目标回复文本,并向终端设备发送目标回复文本,其中,语言模型是根据多个训练样本训练得到的,训练样本包括问题文本、回复文本和反馈文本,回复文本是语言模型对问题文本处理后得到的,反馈文本是采用至少一种反馈方式中的目标反馈方式根据问题文本和回复文本生成的,本申请能够生成准确的回复文本。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种文本回复方法和训练样本的生成方法


技术介绍

1、大型语言模型(large language model,简称llm):也称为大规模语言模型、大语言模型,是一种基于机器学习和自然语言处理技术的模型,它通过对大量的文本数据进行训练,来学习服务人类语言理解和生成的能力。

2、大规模语言模型在模型训练阶段还是部署之后的迭代提升阶段,都需要使用数据训练以进行对齐,其中,现有的大规模语言模型无法针对问题文本得到回复准确度高的回复文本。


技术实现思路

1、本申请提供一种文本回复方法和训练样本的生成方法,用以提升语言模型生成回复文本的准确性。

2、第一方面,本申请提供一种文本回复方法,包括:接收终端设备发送的当前请求文本;根据当前请求文本生成目标问题文本;调用预先训练的语言模型,并根据语言模型对目标问题文本进行处理,得到目标回复文本,并向终端设备发送目标回复文本,其中,语言模型是根据训练样本训练得到的,训练样本包括问题文本、回复文本和反馈文本,回复文本是语言模型对问题文本处理后得到的,反馈文本是采用至少一种反馈方式中的目标反馈方式根据问题文本和回复文本生成的。

3、第二方面,本申请提供一种训练样本的生成方法,包括:获取问题文本和问题文本对应的回复文本,回复文本是采用语言模型对问题文本进行文本回复处理得到的,语言模型是经过预训练的未对齐模型;确定回复文本相对问题文本的回复准确度;在至少一种反馈方式中,确定回复准确度对应的目标反馈方式;基于目标反馈方式,根据问题文本和回复文本,生成问题文本对应的反馈文本;根据问题文本、回复文本和反馈文本,构建训练样本,其中,在回复文本和反馈文本中,回复准确度较高的文本为训练样本中的正标签,回复准确度较低的文本为训练样本中的负标签,训练样本用于对语言模型进行对齐训练。

4、第三方面,本申请提供一种云端设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使云端设备执行前述第一方面、第二方面和/或第三方面的方法。

5、第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现如第一方面、第二方面和/或第三方面的方法。

6、本申请提供的文本回复方法和训练样本的生成方法,通过接收终端设备发送的当前请求文本;根据当前请求文本生成目标问题文本;调用预先训练的语言模型,并根据语言模型对问题文本进行处理,得到目标回复文本,并向终端设备发送目标回复文本,其中,语言模型是根据多个训练样本训练得到的,训练样本包括问题文本、回复文本和反馈文本,回复文本是语言模型对问题文本处理后得到的,反馈文本是采用至少一种反馈方式中的目标反馈方式根据问题文本和回复文本生成的,能够提升语言模型生成回复文本的准确性。

本文档来自技高网...

【技术保护点】

1.一种文本回复方法,其特征在于,包括:

2.根据权利要求1所述的文本回复方法,其特征在于,所述根据所述当前请求文本生成目标问题文本,包括:

3.根据权利要求1所述的文本回复方法,其特征在于,所述根据所述当前请求文本生成目标问题文本,包括:

4.根据权利要求1所述的文本回复方法,其特征在于,所述根据所述当前请求文本生成目标问题文本,包括:若为摘要场景,改写所述当前请求文本为所述目标问题文本,所述目标回复文本为所述当前请求文本的摘要。

5.根据权利要求1至4任一项所述的文本回复方法,其特征在于,还包括,通过以下方式训练得到所述语言模型:

6.根据权利要求5所述的模型训练方法,其特征在于,所述采用所述训练样本对齐训练语言模型,得到训练完成的语言模型,包括:

7.根据权利要求5所述的模型训练方法,其特征在于,所述采用所述训练样本对齐训练语言模型,得到训练完成的语言模型,包括:

8.一种训练样本的生成方法,其特征在于,包括:

9.根据权利要求8所述的训练样本的生成方法,其特征在于,所述至少一种反馈方式包括第一反馈方式、第二反馈方式和第三反馈方式中的至少一种,所述第一反馈方式根据评语反馈生成反馈文本,所述第二反馈方式根据改良反馈生成反馈文本,所述第三反馈方式根据偏好反馈生成反馈文本。

10.根据权利要求8或9所述的训练样本的生成方法,其特征在于,若所述目标反馈方式为所述第一反馈方式,所述基于所述目标反馈方式,根据所述问题文本和所述回复文本,生成所述问题文本对应的反馈文本,包括:

11.根据权利要求8或9所述的训练样本的生成方法,其特征在于,若所述目标反馈方式为所述第二反馈方式,所述基于所述目标反馈方式,根据所述问题文本和所述回复文本,生成所述问题文本对应的反馈文本,包括:

12.根据权利要求8或9所述的训练样本的生成方法,其特征在于,若所述目标反馈方式为所述第二反馈方式,所述基于所述目标反馈方式,根据所述问题文本和所述回复文本,生成所述问题文本对应的反馈文本,包括:

13.根据权利要求8或9所述的训练样本的生成方法,其特征在于,所述确定所述回复文本相对所述问题文本的回复准确度,包括:

14.根据权利要求8或9所述的训练样本的生成方法,其特征在于,所述根据所述问题文本、所述回复文本和所述反馈文本,构建训练样本之后,还包括:

15.一种云端设备,其特征在于,包括:

16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-14中任一项所述的方法。

...

【技术特征摘要】

1.一种文本回复方法,其特征在于,包括:

2.根据权利要求1所述的文本回复方法,其特征在于,所述根据所述当前请求文本生成目标问题文本,包括:

3.根据权利要求1所述的文本回复方法,其特征在于,所述根据所述当前请求文本生成目标问题文本,包括:

4.根据权利要求1所述的文本回复方法,其特征在于,所述根据所述当前请求文本生成目标问题文本,包括:若为摘要场景,改写所述当前请求文本为所述目标问题文本,所述目标回复文本为所述当前请求文本的摘要。

5.根据权利要求1至4任一项所述的文本回复方法,其特征在于,还包括,通过以下方式训练得到所述语言模型:

6.根据权利要求5所述的模型训练方法,其特征在于,所述采用所述训练样本对齐训练语言模型,得到训练完成的语言模型,包括:

7.根据权利要求5所述的模型训练方法,其特征在于,所述采用所述训练样本对齐训练语言模型,得到训练完成的语言模型,包括:

8.一种训练样本的生成方法,其特征在于,包括:

9.根据权利要求8所述的训练样本的生成方法,其特征在于,所述至少一种反馈方式包括第一反馈方式、第二反馈方式和第三反馈方式中的至少一种,所述第一反馈方式根据评语反馈生成反馈文本,所述第二反馈方式根据改良反馈生成反馈文本,所述第三反馈方式根据偏...

【专利技术属性】
技术研发人员:林廷恩余天枢武玉川杨敏黄非李永彬
申请(专利权)人:浙江阿里巴巴机器人有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1