数据生成方法、装置、存储介质以及电子设备制造方法及图纸

技术编号：40270044 阅读：17 留言：0更新日期：2024-02-02 22:56

本申请实施例公开了一种数据生成方法、装置、存储介质以及电子设备，所述方法包括：确定至少一个安全风险场景，获取安全风险场景对应的问题生成提示信息，获取问题生成模型，基于问题生成提示信息采用问题生成模型生成安全风险场景对应的参考风险问题，对参考风险问题进行问题质量验证得到质量验证结果，基于质量验证结果从参考风险问题中确定目标风险问题。本申请实施例通过划分不同类型的安全风险场景，以生成每个安全风险场景分别对应的参考风险问题，并对参考风险问题进行质量验证后得到目标风险问题，保证了生成的风险问题的丰富性和有效性，从而通过丰富且有效的风险问题数据集对语言生成模型进行安全测评以提升安全测评效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及一种数据生成方法、装置、存储介质以及电子设备。

技术介绍

1、随着计算机技术的不断进步，人工智能生成模型正处于蓬勃发展和广泛应用的阶段。在语言生成领域，像生成型预训练变换模型（chat generative pre-trainedtransformer，chatgpt）这样的文本类生成模型已经取得了显著的突破。chatgpt是一种人工智能技术驱动的自然语言处理工具，拥有语言理解和文本生成能力，它们可以生成连贯、逻辑性强的文本能力，甚至在某些方面超越了人类水平。正是chatgpt强大的语言处理能力，使得chatgpt在自动化写作、内容生成和创意产生等领域展现出了巨大的潜力。

技术实现思路

1、本申请实施例提供了一种数据生成方法、装置、计算机存储介质以及电子设备，通过划分不同类型的安全风险场景，以生成每个安全风险场景分别对应的参考风险问题，并对参考风险问题进行质量验证后得到目标风险问题，保证了生成的风险问题的丰富性和有效性，从而通过丰富且有效的风险问题数据集对语言生成模型进行安全测评以提升安全测评效果。所述技术方案如下：

2、第一方面，本申请实施例提供了一种数据生成方法，所述方法包括：

3、确定至少一个安全风险场景，获取所述安全风险场景对应的问题生成提示信息；

4、获取问题生成模型，基于所述问题生成提示信息采用所述问题生成模型生成所述安全风险场景对应的参考风险问题；

5、对所述参考风险问题进行问题质量验证得到质

6、在一种可行的实施方式中，所述获取所述安全风险场景对应的问题生成提示信息，包括：

7、获取所述安全风险场景对应的风险类型信息；

8、获取所述安全风险场景对应的问题生成规则；

9、基于所述风险类型信息和所述问题生成规则，生成所述安全风险场景对应的问题生成提示信息。

10、在一种可行的实施方式中，所述获取问题生成模型之前，还包括：

11、获取安全风险场景对应的风险问题样本和问题学习提示词；

12、获取基础人工智能内容生成模型，基于所述基础人工智能内容生成模型确定初始问题生成模型；

13、基于所述风险问题样本对所述初始问题生成模型进行问题生成场景学习处理，得到问题生成模型。

14、在一种可行的实施方式中，所述获取安全风险场景对应的风险问题样本，包括：

15、获取安全风险场景对应的风险问题特征；

16、基于所述风险问题特征获取所述安全风险场景对应的风险问题初始样本；

17、对所述风险问题初始样本进行筛选，得到所述安全风险场景对应的风险问题样本。

18、在一种可行的实施方式中，所述对所述参考风险问题进行问题质量验证得到质量验证结果，基于所述质量验证结果从所述参考风险问题中确定目标风险问题，包括：

19、对所述参考风险问题进行质量预处理，得到第一风险问题；

20、采用差分测试验证方式对所述第一风险问题进行问题质量验证得到质量验证结果，基于所述质量验证结果从所述第一风险问题中确定目标风险问题。

21、在一种可行的实施方式中，所述采用差分测试验证方式对所述第一风险问题进行问题质量验证得到质量验证结果，基于所述质量验证结果从所述第一风险问题中确定目标风险问题，包括：

22、获取测试模型集合，所述测试模型集合包括至少两个问题测试模型；

23、将所述第一风险问题分别输入至所述至少两个问题测试模型，得到所述问题测试模型对应的问题响应结果；

24、基于所述第一风险问题和所述问题响应结果，生成所述第一风险问题对应的风险质量检测数据；

25、获取问题质量验证模型，将所述风险质量检测数据输入至所述问题质量验证模型，得到所述第一风险问题对应的质量验证结果；

26、基于所述质量验证结果从所述第一风险问题中确定目标风险问题。

27、在一种可行的实施方式中，所述基于所述第一风险问题和所述问题响应结果，生成所述第一风险问题对应的风险质量检测数据，包括：

28、获取预设质量验证提示模板；

29、基于所述预设质量验证提示模板将所述第一风险问题和所述问题响应结果进行组合，生成所述第一风险问题对应的风险质量检测数据。

30、在一种可行的实施方式中，所述基于所述质量验证结果从所述第一风险问题中确定目标风险问题，包括：

31、确定质量验证结果为质量验证成功类型的目标质量验证结果，确定所述目标质量验证结果的目标数量；

32、基于所述测试模型集合确定模型数量；

33、若所述模型数量与所述目标数量的差值小于或者等于阈值，则将所述目标质量验证结果对应的第一风险问题确定为目标风险问题。

34、在一种可行的实施方式中，所述对所述参考风险问题进行问题质量验证得到质量验证结果，基于所述质量验证结果从所述参考风险问题中确定目标风险问题之后，还包括：

35、将所述目标风险问题存储至所述安全风险场景对应的安全风险测试数据库。

36、第二方面，本申请实施例提供了一种数据生成装置，所述装置包括：

37、数据获取模块，用于确定至少一个安全风险场景，获取所述安全风险场景对应的问题生成提示信息；

38、数据生成模块，用于获取问题生成模型，基于所述问题生成提示信息采用所述问题生成模型生成所述安全风险场景对应的参考风险问题；

39、数据验证模块，用于对所述参考风险问题进行问题质量验证得到质量验证结果，基于所述质量验证结果从所述参考风险问题中确定目标风险问题。

40、在一种可行的实施方式中，所述数据获取模块，用于：

41、获取所述安全风险场景对应的风险类型信息；

42、获取所述安全风险场景对应的问题生成规则；

43、基于所述风险类型信息和所述问题生成规则，生成所述安全风险场景对应的问题生成提示信息。

44、在一种可行的实施方式中，所述装置还包括：

45、样本获取模块，用于获取安全风险场景对应的风险问题样本和问题学习提示词；

46、模型确定模块，用于获取基础人工智能内容生成模型，基于所述基础人工智能内容生成模型确定初始问题生成模型；

47、模型学习模块，用于基于所述风险问题样本对所述初始问题生成模型进行问题生成场景学习处理，得到问题生成模型。

48、在一种可行的实施方式中，所述样本获取模块，用于：

49、获取安全风险场景对应的风险问题特征；

50、基于所述风险问题特征获取所述安全风险场景对应的风险问题初始样本；

51、对所述风险问题初始样本进行筛选，得到所述安全风险场景对应的风险问题样本。

52、在本文档来自技高网...

【技术保护点】

1.一种数据生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述安全风险场景对应的问题生成提示信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取问题生成模型之前，还包括：

4.根据权利要求3所述的方法，其特征在于，所述获取安全风险场景对应的风险问题样本，包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述参考风险问题进行问题质量验证得到质量验证结果，基于所述质量验证结果从所述参考风险问题中确定目标风险问题，包括：

6.根据权利要求5所述的方法，其特征在于，所述采用差分测试验证方式对所述第一风险问题进行问题质量验证得到质量验证结果，基于所述质量验证结果从所述第一风险问题中确定目标风险问题，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述质量验证结果从所述第一风险问题中确定目标风险问题，包括：

8.一种数据生成装置，其特征在于，所述装置包括：

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所

10.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1~7任意一项所述的方法步骤。

...

【技术特征摘要】

1.一种数据生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述安全风险场景对应的问题生成提示信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取问题生成模型之前，还包括：

4.根据权利要求3所述的方法，其特征在于，所述获取安全风险场景对应的风险问题样本，包括：

6.根据权利要求5所述的方法，其特征在于，所述采用差分测试验证方式对所述第一风险问...

【专利技术属性】
技术研发人员：邹权臣，张德岳，杨东东，韩东，徐昌凯，
申请(专利权)人：北京奇虎科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人