一种模型风险评估方法、装置、电子设备及存储介质制造方法及图纸

技术编号：46594400 阅读：0 留言：0更新日期：2025-10-10 21:27

本申请提供了一种模型风险评估方法、装置、电子设备及存储介质，方法包括：获取模型输出的生成信息，从中提取第一生成文本、生成语音、生成影像；判断第一生成文本是否包含与特定标识符对应的隐私信息，得到个人信息风险值；判断生成语音、生成影像中是否包含特定生物特征，得到生物特征信息风险值；根据第一生成文本中各文本片段所属类别确定正向引导风险值；获取模型输出的第二生成文本，根据第二生成文本中安全文本片段所占比例，确定拒答响应风险值；根据个人信息风险值、生物特征信息风险值、正向引导风险值和拒答响应风险值，确定模型风险值。本申请从四个方面对模型的安全性进行定量评估，能够全面、精确地衡量模型生成内容的安全性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，尤其是涉及一种模型风险评估方法、装置、电子设备及存储介质。

技术介绍

1、随着科技的迅猛发展，大模型生成内容的能力日益增强，这为信息传播和内容创作带来了革命性的变化。然而，这一技术也带来了不容忽视的安全问题。例如，生成的内容可能包含误导性信息、侵犯隐私或被用于恶意目的。因此，评估大模型生成内容的安全性，已成为当前技术发展中亟需解决的重要课题。

2、目前针对生成式大模型的安全性评估，通常为针对客观题的通用安全评估，少数针对主观题的安全评估，也是人工判断或利用模型来定性判断。这样的评估方式缺乏量化标准，难以全面、精确地衡量内容的安全性，针对主观题的评估深度和准确性有限，无法有效应对复杂多变的内容风险。

技术实现思路

1、有鉴于此，本申请的目的在于提供一种模型风险评估方法、装置、电子设备及存储介质，从个人隐私信息、生物特征信息、正向引导和拒绝响应四个方面，对生成式大模型的安全性进行定量评估，并采用了主观题问答的方式，能够全面、精确地衡量模型生成内容的安全性。

2、本申请实施本文档来自技高网...

【技术保护点】

1.一种模型风险评估方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述判断所述第一生成文本是否包含与特定标识符对应的隐私信息，得到个人信息风险值，包括：

3.根据权利要求2所述的方法，其特征在于，所述判断所述生成语音和/或生成影像中是否包含特定生物特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述第一生成文本中各文本片段进行分类，并根据所述各文本片段所属类别对应的风险值，确定所述第一生成文本的正向引导风险值，包括：

5.根据权利要求1所述的方法，其特征在于，在所述分别确定每个第一文本片段对应类别...

【技术特征摘要】

1.一种模型风险评估方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述判断所述第一生成文本是否包含与特定标识符对应的隐私信息，得到个人信息风险值，包括：

3.根据权利要求2所述的方法，其特征在于，所述判断所述生成语音和/或生成影像中是否包含特定生物特征，包括：

5.根据权利要求1所述的方法，其特征在于，在所述分别确定每个第一文本片段对应类别之前，所述方法包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述第二生成文本中安全文本片段占所述第二...

【专利技术属性】
技术研发人员：郑榕，张德俊，
申请(专利权)人：公安部第一研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人