训练内容生成模型方法、确定输出内容方法、装置及设备制造方法及图纸

技术编号：40700659 阅读：3 留言：0更新日期：2024-03-22 10:58

本申请公开了一种训练内容生成模型的方法、确定内容生成模型输出内容的方法、装置、设备及介质，用以提高内容生成模型的输出内容的多样化、个性化及可辨识性，提高用户体验。在本申请实施例中，可以针对获取到的任一普适样本输入语料，确定预先采集的对应目标用户的个性化样本输入语料集中，与普适样本输入语料匹配的目标个性化样本输入语料；将普适样本输入语料与目标个性化样本输入语料进行融合，生成用于训练内容生成模型的训练输入，基于训练输入以及对应目标个性化样本输入语料的个性化样本输出内容，对内容生成模型进行训练，基于此，可以实现提高内容生成模型的输出内容的多样化、个性化及可辨识性，提高用户体验的目的。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理，尤其涉及一种训练内容生成模型的方法、确定内容生成模型的输出内容的方法、装置、设备及介质。

技术介绍

1、以内容生成模型为问答模型为例，由于内容生成模型可以将用户所提出的问题转化为机器可理解的格式，实现自动智能地回答用户所提出的问题，在诸多领域得到了广泛的应用。然而，相关技术中，对于不同个性的用户所提出的相同问题，内容生成模型通常会提供内容接近、甚至完全相同的答案(输出内容)，导致内容生成模型的输出内容较为单一，用户体验较低。

2、因此，亟需一种可以提高内容生成模型的输出内容的多样化、个性化及可辨识性，提高用户体验的技术方案。

技术实现思路

1、本申请实施例提供了一种训练内容生成模型的方法、确定内容生成模型的输出内容的方法、装置、设备及介质，用以提高内容生成模型的输出内容的多样化、个性化及可辨识性，提高用户体验。

2、第一方面，本申请提供了一种训练内容生成模型的方法，所述方法包括：

3、针对获取到的任一普适样本输入语料，确定预先采集的对应目标用户的个性化样本输入语料集中，与所述普适样本输入语料匹配的目标个性化样本输入语料；

4、将所述普适样本输入语料与所述目标个性化样本输入语料进行融合，生成用于训练内容生成模型的训练输入；

5、基于所述训练输入以及对应所述目标个性化样本输入语料的个性化样本输出内容，对所述内容生成模型进行训练。

6、由于本申请实施例可以将普适样本输入语料与能够反映目标用户的个性

7、在一种可能的实施方式中，所述确定预先采集的对应目标用户的个性化样本输入语料集中，与所述普适样本输入语料匹配的目标个性化样本输入语料，包括：

8、基于预先训练完成的语言模型，确定所述普适样本输入语料的第一向量，并确定所述个性化样本输入语料集中每个样本输入语料的第二向量；

9、确定所述第一向量与每个所述第二向量之间的向量相似度；

10、基于所述向量相似度，确定与所述普适样本输入语料匹配的目标个性化样本输入语料。

11、由于本申请实施例可以基于普适样本输入语料的第一向量与每个样本输入语料的第二向量之间的向量相似度，来确定与普适样本输入语料匹配的目标个性化样本输入语料，从而可以提高确定的目标个性化样本输入语料的准确性。

12、在一种可能的实施方式中，所述基于所述向量相似度，确定与所述普适样本输入语料匹配的目标个性化样本输入语料，包括：

13、将向量相似度高于设定相似度阈值的各第二向量，分别确定为候选向量；从各候选向量中选取一个目标向量，将所述目标向量对应的个性化样本输入语料，确定为与所述普适样本输入语料匹配的目标个性化样本输入语料。

14、由于本申请实施例可以从向量相似度高于设定相似度阈值的各第二向量(候选向量)中选取一个目标向量，不仅可以保证目标向量与普适样本输入语料的第一向量之间的向量相似度，保证基于将目标向量对应的个性化样本输入语料，确定为与所述普适样本输入语料匹配的目标个性化样本输入语料时，确定的目标个性化样本输入语料的准确性，同时还可以提高效率。

15、在一种可能的实施方式中，所述将所述普适样本输入语料与所述目标个性化样本输入语料进行融合，生成用于训练内容生成模型的训练输入，包括：

16、将获得的所述普适样本输入语料的普适样本向量与所述目标个性化样本输入语料的个性化样本向量进行拼接，基于拼接生成的向量，确定所述训练输入。

17、本申请实施例可以通过将普适样本输入语料的普适样本向量与目标个性化样本输入语料的个性化样本向量进行拼接的方式，来快捷的将普适样本输入语料与目标个性化样本输入语料融合为一个语料，生成用于训练内容生成模型的训练输入，可以方便快捷的提高内容生成模型的输出内容的多样化、个性化及可辨识性。

18、在一种可能的实施方式中，所述将所述普适样本输入语料与所述目标个性化样本输入语料进行融合，生成用于训练内容生成模型的训练输入，包括：

19、获得普适样本输入语料对应的第一预设权重以及目标个性化样本输入语料对应的第二预设权重；

20、确定获得的所述普适样本输入语料的普适样本向量与所述第一预设权重的第一加权值、以及所述目标个性化样本输入语料的个性化样本向量与所述第二预设权重的第二加权值；

21、基于所述第一加权值以及所述第二加权值，确定所述训练输入。

22、本申请实施例可以通过配置普适样本输入语料的第一预设权重和目标个性化样本输入语料的第二预设权重，来提高对普适样本输入语料与目标个性化样本输入语料融合过程的灵活性，基于该方式融合生成的语料对内容生成模型进行训练时，可以提高内容生成模型的输出内容的多样化、个性化、可辨识性及准确性。

23、在一种可能的实施方式中，获得所述普适样本向量的过程包括：

24、将基于预先训练完成的语言模型确定的所述普适样本输入语料的第一向量，确定为所述普适样本向量；或者，

25、对所述普适样本输入语料进行切分，获得所述普适样本输入语料的第一目标编码，基于所述第一目标编码的向量，获得所述普适样本向量，其中，所述第一目标编码包括所述普适样本输入语料的词编码、位置编码以及分段编码。

26、本申请实施例可以基于语言模型来确定普适样本向量，或者通过对普适样本输入语料进行切分来获得普适样本输入语料的第一目标编码，基于第一目标编码的向量来获得普适样本向量，从而可以快捷准确的确定普适样本输入语料的普适样本向量。

27、在一种可能的实施方式中，获得所述个性化样本向量的过程包括：

28、将基于预先训练完成的语言模型确定的所述个性化样本输入语料的第二向量，确定为所述个性化样本向量；或者，

29、对所述个性化样本输入语料进行切分，获得所述个性化样本输入语料的第二目标编码，基于所述第二目标编码的向量，获得所述个性化样本向量，其中，所述第二目标编码包括所述个性化样本输入语料的词编码、位置编码以及分段编码。

30、本申请实施例可以基于语言模型来确定个性化样本向量，或者通过对个性化样本输入语料进行切分来获得个性化样本输入语料的第二目标编码，基于第二目标编码的向量来获得个性化样本向量，从而可以快捷准确的确定个性化样本输入语料的个性化样本向量。

31、第二方面，本申请本文档来自技高网...

【技术保护点】

1.一种训练内容生成模型的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述确定预先采集的对应目标用户的个性化样本输入语料集中，与所述普适样本输入语料匹配的目标个性化样本输入语料，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述向量相似度，确定与所述普适样本输入语料匹配的目标个性化样本输入语料，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述普适样本输入语料与所述目标个性化样本输入语料进行融合，生成用于训练内容生成模型的训练输入，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述普适样本输入语料与所述目标个性化样本输入语料进行融合，生成用于训练内容生成模型的训练输入，包括：

6.一种确定内容生成模型的输出内容的方法，其特征在于，所述方法包括：

7.一种训练内容生成模型的装置，其特征在于，所述装置包括：

8.一种确定内容生成模型的输出内容的装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备至少包括

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-5中任一所述方法的步骤。

...

【技术特征摘要】

1.一种训练内容生成模型的方法，其特征在于，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述向量相似度，确定与所述普适样本输入语料匹配的目标个性化样本输入语料，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述普适样本输入语料与所述目...

【专利技术属性】
技术研发人员：张阳，杨俊伟，胡伯良，
申请(专利权)人：北京海泰方圆科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人