一种测评文档生成方法、装置及设备制造方法及图纸

技术编号：40319304 阅读：10 留言：0更新日期：2024-02-07 21:02

本发明专利技术公开一种测评文档生成方法、装置及设备，方法包括：将目标信息化项目的项目描述信息和测评内容提取提示输入预设的测评文档生成模型，通过测评文档生成模型根据测评内容提取提示从项目描述信息中提取目标测评内容并输出目标测评文档模板；将目标测评文档模板和测评流程生成提示输入测评文档生成模型，通过测评文档生成模型生成目标测评内容所对应的目标测评流程并输出目标测评文档；其中，测评文档生成模型为基于预设的通用文本数据集和测评文本数据集对自然语言模型进行训练、指令微调和对齐微调所获得的预训练模型。本发明专利技术能够避免生成的测评文档出现信息遗漏及信息描述不准确的问题，并能提高测评文档的生成效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及软件测试，尤其是涉及一种测评文档生成方法、装置及终端设备。

技术介绍

1、信息化项目的测评文档是指在信息化项目完成后，对信息化项目的各个方面进行综合测评所创建的文档，信息化项目的测评文档通常涵盖了信息化项目的目标、执行过程、成果、问题、解决方案、项目质量及效果等内容。然而在现有技术中，信息化项目的测评文档通常需要依靠测评工作人员线下手动编写，导致生成的测评文档容易出现信息遗漏及信息二义性的问题，且测评文档生成效率低。

技术实现思路

1、本专利技术提供一种测评文档生成方法、装置及设备，利用预训练模型的涌现能力，能够从信息化项目描述信息中基于提示策略获取测评文档信息并自动生成测评文档，显著提高了测评文档的生成效率，此外，基于对齐微调技术能够有效避免生成的测评文档出现信息遗漏及信息描述不准确的问题。

2、为了解决上述技术问题，本专利技术实施例第一方面提供一种测评文档生成方法，包括如下步骤：

3、将目标信息化项目的项目描述信息和测评内容提取提示输入预设的测评文档生成模型，通过所述测评文档生成模型根据所述测评内容提取提示从所述项目描述信息中提取目标测评内容并输出目标测评文档模板；

4、将所述目标测评文档模板和测评流程生成提示输入所述测评文档生成模型，通过所述测评文档生成模型生成所述目标测评内容所对应的目标测评流程并输出目标测评文档；

5、其中，所述目标测评内容至少包括目标测评需求和目标预期结果；所述目标测评流程至少包括目标前置条件和目标测评步骤；

6、所述测评文档生成模型为基于预设的通用文本数据集和测评文本数据集对自然语言模型进行训练、指令微调和对齐微调所获得的预训练模型。

7、作为优选方案，所述方法具体通过如下步骤对所述自然语言模型进行训练：

8、对所述通用文本数据集和所述测评文本数据集进行预处理，获得预训练文本数据集；

9、利用所述预训练文本数据集对所述自然语言模型进行训练，并在所述自然语言模型的训练过程中对所述自然语言模型的每一层多头自注意力层进行批量训练优化、学习率优化、优化器优化和训练稳定性优化，获得初始预训练模型。

10、作为优选方案，所述方法具体通过如下步骤对所述初始预训练模型进行指令微调：

11、获取oig任务集合以作为格式化实例，并将所述通用文本数据集、所述测评文本数据集和所述oig任务集合合并，获得混合数据集；

12、基于所述混合数据集和预设的实例数量上限，采用实例比例混合策略对所述初始预训练模型进行指令微调，并在指令微调过程中提高所述测评文本数据集的采样比例，获得指令微调后的初始预训练模型。

13、作为优选方案，所述方法具体通过如下步骤对所述指令微调后的初始预训练模型进行对齐微调：

14、构建包含与测评内容、测评流程相关的若干输入提示及期望输出的监督数据集；

15、将所述监督数据集中的各输入提示分别输入所述指令微调后的初始预训练模型，获得各输入提示所对应的若干输出文本；

16、获取若干所述输出文本所对应的满足预设对齐标准的人类反馈数据，并利用强化学习算法和所述人类反馈数据对奖励模型进行训练，以使训练后的奖励模型在获取各输入提示所对应的若干输出文本时，确定若干所述输出文本所对应的满足所述预设对齐标准的输出排序结果；

17、将所述训练后的奖励模型与所述指令微调后的初始预训练模型对接，以将所述指令微调后的初始预训练模型根据所述输入提示所生成的输出内容输入所述训练后的奖励模型，并根据所述训练后的奖励模型生成的所述输出内容所对应的满足所述预设对齐标准的输出排序结果，对所述指令微调后的初始预训练模型进行参数优化，获得所述测评文档生成模型。

18、作为优选方案，所述方法还包括如下步骤：

19、判断所述目标测评文档中的所述目标测评内容和/或所述目标测评流程是否满足所述预设对齐标准；

20、当所述目标测评内容和/或所述目标测评流程不满足所述预设对齐标准时，将所述测评内容提取提示和/或所述测评流程生成提示、所述测评内容提取提示和/或所述测评流程生成提示所对应的期望输出添加至所述监督数据集；

21、基于当前的监督数据集，重新对所述测评文档生成模型进行对齐微调；

22、通过当前的测评文档生成模型重新根据所述项目描述信息、所述测评内容提取提示和所述测评流程生成提示生成当前的目标测评文档，并重新判断当前的目标测评文档是否满足所述预设对齐标准，直至获得满足所述预设对齐标准的目标测评文档。

23、作为优选方案，所述方法还包括如下步骤：

24、根据所述目标测评文档所对应的测评文档类型，从所述测评文本数据集中获取符合所述测评文档类型的若干示范测评文档；

25、将若干所述示范测评文档输入所述测评文档生成模型，并利用所述测评内容提取提示和所述测评流程生成提示依次与所述测评文档生成模型进行若干次对话，获得若干测评文档模板；

26、将所述测评内容提取提示和所述测评流程生成提示作为输入提示、若干所述测评文档模板作为期望输出添加至所述监督数据集；

27、基于当前的监督数据集，重新对所述测评文档生成模型进行对齐微调，以使重新对齐微调后的测评文档生成模型在接收到所述项目描述信息和所述测评文档类型的生成提示时直接生成所述目标测评文档。

28、作为优选方案，所述对所述通用文本数据集和所述测评文本数据集进行预处理，获得预训练文本数据集，具体包括如下步骤：

29、对所述通用文本数据集和所述测评文本数据集进行文本过滤处理和去重处理，获得第一文本数据集；

30、对所述第一文本数据集所包含的个人隐私信息和信息化项目信息进行删除处理或加密处理，获得第二文本数据集；

31、利用基于sentencepiece算法训练的分词器和bpe算法对所述第二文本数据集所包含的若干文本进行分词处理，获得第三文本数据集；

32、利用word2vec模型对所述第三文本数据集进行特征提取，获得所述第三文本数据集中每个词语的向量表示并形成所述预训练文本数据集。

33、作为优选方案，所述自然语言模型的模型架构具体为因果解码器架构；所述自然语言模型由输入嵌入层、若干多头自注意力层、若干前馈神经网络层和输出层组成。

34、本专利技术实施例第二方面提供一种测评文档生成装置，包括：

35、目标测评文档模板输出模块，用于将目标信息化项目的项目描述信息和测评内容提取提示输入预设的测评文档生成模型，通过所述测评文档生成模型根据所述测评内容提取提示从所述项目描述信息中提取目标测评内容并输出目标测评文档模板；

36、目标测评文档输出模块，用于将所述目标测评文档模板和测评流程生成提示输入所述测评文档生成模型，通过所述测评文档生成模型生成所述目标测评内容所对应的目标测评流程并输出目标测评文档；

<本文档来自技高网...

【技术保护点】

1.一种测评文档生成方法，其特征在于，包括如下步骤：

2.如权利要求1所述的测评文档生成方法，其特征在于，所述方法具体通过如下步骤对所述自然语言模型进行训练：

3.如权利要求2所述的测评文档生成方法，其特征在于，所述方法具体通过如下步骤对所述初始预训练模型进行指令微调：

4.如权利要求3所述的测评文档生成方法，其特征在于，所述方法具体通过如下步骤对所述指令微调后的初始预训练模型进行对齐微调：

5.如权利要求4所述的测评文档生成方法，其特征在于，所述方法还包括如下步骤：

6.如权利要求4所述的测评文档生成方法，其特征在于，所述方法还包括如下步骤：

7.如权利要求2所述的测评文档生成方法，其特征在于，所述对所述通用文本数据集和所述测评文本数据集进行预处理，获得预训练文本数据集，具体包括如下步骤：

8.如权利要求1至7任一项所述的测评文档生成方法，其特征在于，所述自然语言模型的模型架构具体为因果解码器架构；所述自然语言模型由输入嵌入层、若干多头自注意力层、若干前馈神经网络层和输出层组成。

10.一种终端设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的测评文档生成方法。

...

【技术特征摘要】

1.一种测评文档生成方法，其特征在于，包括如下步骤：

2.如权利要求1所述的测评文档生成方法，其特征在于，所述方法具体通过如下步骤对所述自然语言模型进行训练：

3.如权利要求2所述的测评文档生成方法，其特征在于，所述方法具体通过如下步骤对所述初始预训练模型进行指令微调：

4.如权利要求3所述的测评文档生成方法，其特征在于，所述方法具体通过如下步骤对所述指令微调后的初始预训练模型进行对齐微调：

5.如权利要求4所述的测评文档生成方法，其特征在于，所述方法还包括如下步骤：

6.如权利要求4所述的测评文档生成方法，其特征在于，所述方法还包括如下步骤：

<...

【专利技术属性】
技术研发人员：许颖媚，罗征宇，林长春，余达明，巢志锋，钟真毅，
申请(专利权)人：广东省科技基础条件平台中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人