数据集的构建方法、语言模型的确定方法和信息处理方法技术

技术编号：41264185 阅读：4 留言：0更新日期：2024-05-11 09:21

本申请公开了一种数据集的构建方法、语言模型的确定方法和信息处理方法。其中，该方法包括：获取初始信息集合，并对所述初始信息集合进行预处理，得到所述目标信息集合；获取所述目标信息集合中的目标信息对应的历史信息；依据所述目标信息集合和所述历史信息构建目标训练集，其中，所述目标训练集用于训练得到目标语言模型，所述目标语言模型用于对目标问题信息进行处理，以得到所述目标问题信息的答复信息。本申请解决了在存在知识更新时，直接利用更新的知识对当前的语言模型进行训练，导致训练后的语言模型回复的准确性比较低的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，具体而言，涉及一种数据集的构建方法、语言模型的确定方法和信息处理方法。

技术介绍

1、大模型时代出现了众多的基础语言模型，虽然基础语言模型已经学习到了海量的世界知识，但是当前的世界是一个时刻变化的世界，知识也是日新月异的变化，为了提高基础语言模型的性能需要通过更新的知识对其进行迭代训练，现有技术中往往直接采用更新的知识对语言模型进行训练，但是这种方式存在以下缺点：一是无法高效针对性的注入需要更新的知识，有很多重复知识被执行了训练过程；二是无法保证新知识被语言模型学习，进而使得训练后的语言模型的性能不能得到很好地提升。

2、针对上述在存在知识更新时，直接利用更新的知识对当前的语言模型进行训练，导致训练后的语言模型回复的准确性比较低问题，目前尚未提出有效的解决方案。

技术实现思路

1、本申请实施例提供了一种数据集的构建方法、语言模型的确定方法和信息处理方法，以至少解决在存在知识更新时，直接利用更新的知识对当前的语言模型进行训练，导致训练后的语言模型回复的准确性比较低的技术问题。

2、根据本申请实施例的一个方面，提供了一种数据集的构建方法，包括：获取初始信息集合，并对所述初始信息集合进行预处理，得到所述目标信息集合；获取所述目标信息集合中的目标信息对应的历史信息；依据所述目标信息集合和所述历史信息构建目标训练集，其中，所述目标训练集用于训练得到目标语言模型，所述目标语言模型用于对目标问题信息进行处理，以得到所述目标问题信息的答复信息。

<p>3、进一步地，获取所述目标信息集合中的目标信息对应的历史信息包括：对所述目标信息集合中的信息进行切分，得到多个信息片段；基于信息冲突检测任务，对所述多个信息片段进行补充，得到多个补充后的信息片段；依据所述多个补充后的信息片段和所述初始语言模型，获取所述目标信息和所述目标信息对应的历史信息。

4、进一步地，依据所述多个补充后的信息片段和所述初始语言模型，确定所述目标信息和所述目标信息对应的历史信息包括：判断所述初始语言模型的信息冲突检测能力是否满足预设要求，得到判断结果；若所述判断结果表征所述初始语言模型的信息冲突检测能力满足所述预设要求，则将所述多个补充后的信息片段输入所述初始语言模型中；依据所述初始语言模型对所述目标信息集合中的信息进行信息冲突检测，得到输出结果，其中，所述输出结果为所述历史信息或预设语句，所述预设语句表示当前的补充后的信息片段对应的信息不存在信息冲突；依据所述输出结果，确定所述目标信息和所述目标信息对应的历史信息。

5、进一步地，若所述判断结果表征所述初始语言模型的信息冲突检测能力不满足所述预设要求之后，所述方法还包括：获取用于信息冲突能力训练的训练集，其中，所述训练集由多个信息问句和所述信息问句对应的答复信息组成；依据所述训练集对所述初始语言模型的信息冲突检测能力进行训练，直至所述初始语言模型的信息冲突检测能力满足所述预设要求。

6、进一步地，依据所述目标信息集合和所述历史信息构建所述目标训练集包括：构建所述目标信息和所述历史信息之间的对应关系；对所述目标信息设置第一标签和对所述历史信息设置第二标签，其中，所述第一标签表征所述目标信息为更新后的信息，所述第二标签表征所述历史信息为更新前的信息；依据所述对应关系、所述第一标签、所述第二标签、所述目标信息集合和所述历史信息构建所述目标训练集。

7、进一步地，对所述初始信息集合进行预处理，得到所述目标信息集合包括：对所述初始信息集合中的信息进行数据去重和数据清洗，得到处理后的初始信息集合；对所述处理后的初始信息集合中的信息进行质量评估，得到质量评估结果；依据所述质量评估结果对所述处理后的初始信息集合中的信息进行过滤，得到所述目标信息集合。

8、根据本申请实施例的另一方面，还提供了一种语言模型的确定方法，包括：采用上述任意一项所述的方法获取目标训练集；依据所述目标训练集对初始语言模型进行训练，得到所述目标语言模型。

9、根据本申请实施例的另一方面，还提供了一种信息处理方法，包括：接收目标对象输入的第一问题信息；通过目标语言模型对所述第一问题信息进行处理，得到所述第一问题信息的第一答复信息，其中，所述目标语言模型是基于目标训练集对初始语言模型训练得到的，所述目标训练集包括目标信息集合和所述目标信息集合中的目标信息对应的历史信息组成，所述目标信息集合是在目标时间范围内收集的信息的集合,采用上述任意一项所述的方法获取所述目标训练集；将所述第一答复信息返回至所述目标对象。

10、进一步地，通过目标语言模型对所述第一问题信息进行处理，得到所述第一问题信息的第一答复信息包括：通过所述目标语言模型中的分词器对所述第一问题信息进行分词处理，得到标识序列；通过所述目标语言模型中的嵌入层对所述标识序列向量化，得到第一向量；通过所述目标语言模型中的注意力层对所述第一向量进行编码处理，得到第二向量；通过所述目标语言模型中的解码器依据所述第二向量，得到所述第一答复信息。

11、根据本申请实施例的另一方面，还提供了一种信息处理方法，包括：获取客户端上传的第一问题信息；在云端服务器中通过目标语言模型对所述第一问题信息进行处理，得到所述第一问题信息的第一答复信息，其中，所述目标语言模型是基于目标训练集对初始语言模型训练得到的，所述目标训练集包括目标信息集合和所述目标信息集合中的目标信息对应的历史信息组成，所述目标信息集合是在目标时间范围内收集的信息的集合，采用上述任意一项所述的方法获取所述目标训练集；将所述第一答复信息返回至所述客户端。

12、根据本申请实施例的另一方面，还提供了一种自动问答系统，包括：前端接收界面，其中，所述前端接收界面用于接收目标对象输入的第二问题信息；后台处理模块，其中，所述后台处理模块基于目标语言模型对所述第二问题信息进行处理，得到所述第二问题信息的第二答复信息，其中，所述目标语言模型是基于目标训练集对初始语言模型训练得到的，所述目标训练集包括目标信息集合和所述目标信息集合中的目标信息对应的历史信息组成，所述目标信息集合是在目标时间范围内收集的信息的集合，采用上述任意一项所述的方法获取所述目标训练集，并将所述第二答复信息返回至所述前端接收界面。

13、进一步地，所述后台处理模块基于目标语言模型对所述第二问题信息进行处理，得到所述问题信息的第二答复信息包括：通过所述目标语言模型中的分词器对所述第二问题信息进行分词处理，得到第二标识序列；通过所述目标语言模型中的嵌入层对所述标识序列向量化，得到第三向量；通过所述目标语言模型中的注意力层对所述第三向量进行编码处理，得到第四向量；通过所述目标语言模型中的解码器依据所述第四向量，得到所述第二答复信息。

14、根据本申请实施例的另一方面，还提供了一种数据集的构建装置，包括：第一获取单元，用于获取初始信息集合，并对所述初始信息集合进行预处理，得到所述目标信息集合；第二获取单元，用于获取所述目标信息集合中的目标本文档来自技高网...

【技术保护点】

1.一种数据集的构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，获取所述目标信息集合中的目标信息对应的历史信息包括：

3.根据权利要求2所述的方法，其特征在于，依据所述多个补充后的信息片段和所述初始语言模型，获取所述目标信息和所述目标信息对应的历史信息包括：

4.根据权利要求3所述的方法，其特征在于，若所述判断结果表征所述初始语言模型的信息冲突检测能力不满足所述预设要求之后，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，依据所述目标信息集合和所述历史信息构建所述目标训练集包括：

6.根据权利要求1所述的方法，其特征在于，对所述初始信息集合进行预处理，得到所述目标信息集合包括：

7.一种语言模型的确定方法，其特征在于，包括：

8.一种信息处理方法，其特征在于，包括：

9.根据权利要求8所述的方法，其特征在于，通过目标语言模型对所述问题信息进行处理，得到所述问题信息的答复信息包括：

10.一种信息处理方法，其特征在于，包括：

12.根据权利要求11所述的自动问答系统，其特征在于，所述后台处理模块基于目标语言模型对所述第二问题信息进行处理，得到所述第二问题信息的第二答复信息包括：

13.一种数据集的构建装置，其特征在于，包括：

14.一种语言模型的确定装置，其特征在于，包括：

15.一种信息处理装置，其特征在于，包括：

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任意一项所述的数据集的构建方法，或者，权利要求7所述的语言模型的确定方法，或者，权利要求8至10中任意一项所述的信息处理方法。

17.一种电子设备，其特征在于，包括：

...

【技术特征摘要】