System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据安全,特别是涉及一种敏感信息识别方法、装置、设备和存储介质。
技术介绍
1、聊天机器人程序(chat generative pre-trained transformer,chatgpt)作为爆火的科技概念,掀起了科技浪潮,互联网企业也陆续发布相关大模型。由于大模型的输入是海量序列数据,因此存在一些固有的安全风险。风险可能来自于输入数据的完整性、正确性、敏感性和隐私等问题。不良人员可以通过大模型产出诱导性敏感信息,这些带有敏感信息的内容严重影响用户体验,也可能造成不良引导。
2、确定有限状态自动机(deterministic finite automaton,dfa)是一种用于字符串匹配的算法,其实现方式包括构建敏感词字典树,从根节点开始,按照每个字符的转移情况,构建状态转换表。从文本的开头开始,逐个字符地读取文本,并根据状态转换表找到对应的下一个状态。如果找不到对应的状态,表示当前位置不是敏感词的开头,需要从下一个字符重新开始匹配。如果当前状态为敏感词的终止状态,说明匹配到一个敏感词,可以记录下来或进行相应的处理。dfa是一种字符串匹配算法,其审核性能依赖于敏感词字典树,因此误杀性很大。
3、可见,如何提升敏感信息识别的准确性,是本领域技术人员需要解决的问题。
技术实现思路
1、本专利技术实施例的目的是提供一种敏感信息识别方法、装置、设备和存储介质,可以解决敏感信息识别准确性差的问题。
2、为解决上述技术问题,本专利技术实施例
3、获取初始数据集;
4、按照设定的单次训练量,从所述初始数据集选择出初始训练样本;
5、基于不同类别对应的权重、所述初始训练样本对应的真实标签向量、所述初始训练样本输入初始分类模型所得到的预测向量,确定出交叉熵损失函数;
6、根据所述预测向量、增强后的初始训练样本输入所述初始分类模型所得到的新的预测向量,确定出一致性损失函数;
7、基于所述交叉熵损失函数和所述一致性损失函数对所述初始分类模型的参数进行调整,以得到训练后的分类模型;
8、利用所述训练后的分类模型识别待分析数据的敏感信息结果。
9、一方面,所述基于不同类别对应的权重、所述初始训练样本对应的真实标签向量、所述初始训练样本输入初始分类模型所得到的预测向量,确定出交叉熵损失函数包括:
10、将所述初始训练样本输入所述初始分类模型,以得到预测向量;其中,所述预测向量包括所述初始训练样本属于不同类别的预测值;
11、调用交叉熵损失函数计算公式,对所述预测向量、所述初始训练样本对应的真实标签向量以及不同类别对应的权重进行处理,以得到交叉熵损失函数;所述交叉熵损失函数计算公式为:
12、;
13、其中,,, n表示所有初始训练样本的样本数目, k表示类别总数, i表示第 i个初始训练样本, c表示第 c个类别, y ic表示第 i个初始训练样本的标签值、第 i个初始训练样本的真实标签为 c时 y ic取值为1、第 i个初始训练样本的真实标签不为 c时 y ic取值为0, p ic表示第 i个初始训练样本属于类别 c的预测概率, w ic表示第 i个初始训练样本属于类别 c的权重值, z ic表示第 i个初始训练样本属于类别 c的预测值,第 i个初始训练样本属于不同类别的预测值的组合作为所述预测向量, n c表示所有初始训练样本中类别为 c的样本数目。
14、一方面,所述根据所述预测向量、增强后的初始训练样本输入所述初始分类模型所得到的新的预测向量,确定出一致性损失函数包括:
15、对所述初始训练样本进行同义词替换、回译和/或句法变换,以得到所述增强后的初始训练样本;
16、将所述增强后的初始训练样本输入所述初始分类模型,以得到新的预测向量;
17、调用一致性损失函数计算公式,对所述新的预测向量以及所述预测向量进行处理,以得到一致性损失函数;所述一致性损失函数计算公式为:
18、;
19、其中, α表示超参数, z i表示第 i个初始训练样本对应的预测向量,表示第 i个增强后的初始训练样本对应的新的预测向量。
20、一方面,所述初始数据集包括初始标记训练集和初始标记验证集;
21、在所述基于所述交叉熵损失函数和所述一致性损失函数对所述初始分类模型的参数进行调整,以得到训练后的分类模型之后,还包括:
22、利用所述初始标记训练集以及从未标注数据中筛选出的敏感信息候选集,对所述训练后的分类模型进行参数调整,以得到微调分类模型;
23、基于所述微调分类模型在所述初始标记验证集上的识别精度,从所述敏感信息候选集中筛选出伪标签数据集;
24、依据所述初始数据集以及所述伪标签数据集,从不同结构的待微调模型中筛选出识别精度最大的敏感信息分类模型;
25、利用所述敏感信息分类模型识别所述待分析数据的敏感信息结果。
26、一方面,所述利用所述初始标记训练集以及从未标注数据中筛选出的敏感信息候选集,对所述训练后的分类模型进行参数调整,以得到微调分类模型包括:
27、对所述未标注数据进行字词匹配和语义识别,以筛选出所述敏感信息候选集;
28、按照所述单次训练量,分别从所述敏感信息候选集以及所述初始标记训练集中选择出训练样本;
29、利用所述训练样本对所述训练后的分类模型进行训练,以得到损失函数;
30、基于所述损失函数对所述训练后的分类模型的参数进行调整,以得到微调分本文档来自技高网...
【技术保护点】
1.一种敏感信息识别方法,其特征在于,包括:
2.根据权利要求1所述的敏感信息识别方法,其特征在于,所述基于不同类别对应的权重、所述初始训练样本对应的真实标签向量、所述初始训练样本输入初始分类模型所得到的预测向量,确定出交叉熵损失函数包括:
3.根据权利要求2所述的敏感信息识别方法,其特征在于,所述根据所述预测向量、增强后的初始训练样本输入所述初始分类模型所得到的新的预测向量,确定出一致性损失函数包括:
4.根据权利要求1所述的敏感信息识别方法,其特征在于,所述初始数据集包括初始标记训练集和初始标记验证集;
5.根据权利要求4所述的敏感信息识别方法,其特征在于,所述利用所述初始标记训练集以及从未标注数据中筛选出的敏感信息候选集,对所述训练后的分类模型进行参数调整,以得到微调分类模型包括:
6.根据权利要求5所述的敏感信息识别方法,其特征在于,所述对所述未标注数据进行字词匹配和语义识别,以筛选出所述敏感信息候选集包括:
7.根据权利要求5所述的敏感信息识别方法,其特征在于,所述训练样本包括敏感数据和非敏感数据;
8.根据权利要求5所述的敏感信息识别方法,其特征在于,所述损失函数包括微调阶段的交叉熵损失函数和微调阶段的一致性损失函数;
9.根据权利要求7所述的敏感信息识别方法,其特征在于,所述基于所述微调分类模型在所述初始标记验证集上的识别精度,从所述敏感信息候选集中筛选出伪标签数据集包括:
10.根据权利要求9所述的敏感信息识别方法,其特征在于,所述在所述识别精度满足设定的精度要求的情况下,将所述敏感数据及其对应的预测标签作为所述伪标签数据集包括:
11.根据权利要求10所述的敏感信息识别方法,其特征在于,在所述将所述敏感数据及其对应的预测标签作为所述伪标签数据集之后,还包括:
12.根据权利要求7所述的敏感信息识别方法,其特征在于,在所述基于所述损失函数对所述训练后的分类模型的参数进行调整,以得到微调分类模型之后,还包括:
13.根据权利要求4所述的敏感信息识别方法,其特征在于,所述依据所述初始数据集以及所述伪标签数据集,从不同结构的待微调模型中筛选出识别精度最大的敏感信息分类模型包括:
14.根据权利要求13所述的敏感信息识别方法,其特征在于,每种结构的待微调模型包含多个二分类模型;针对于每种结构的待微调模型的构建,所述方法还包括:
15.根据权利要求4所述的敏感信息识别方法,其特征在于,所述利用所述敏感信息分类模型识别所述待分析数据的敏感信息结果包括:
16.根据权利要求15所述的敏感信息识别方法,其特征在于,所述敏感信息分类模型包括多个敏感信息二分类模型;
17.根据权利要求16所述的敏感信息识别方法,其特征在于,还包括:
18.根据权利要求15所述的敏感信息识别方法,其特征在于,还包括:
19.根据权利要求1至18任意一项所述的敏感信息识别方法,其特征在于,所述按照设定的单次训练量,从所述初始数据集选择出初始训练样本包括:
20.根据权利要求19所述的敏感信息识别方法,其特征在于,所述根据所述本次迭代的初始分类模型对应的初始识别精度与上一次迭代保留的最优初始分类模型的初始识别精度,确定出本次迭代的最优初始分类模型包括:
21.一种敏感信息识别方法,其特征在于,包括:
22.一种敏感信息识别装置,其特征在于,包括获取单元、选择单元、第一损失确定单元、第二损失确定单元、调整单元和识别单元;所述获取单元,用于获取初始数据集;
23.一种敏感信息识别设备,其特征在于,包括:
24.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至21任意一项所述敏感信息识别方法的步骤。
...【技术特征摘要】
1.一种敏感信息识别方法,其特征在于,包括:
2.根据权利要求1所述的敏感信息识别方法,其特征在于,所述基于不同类别对应的权重、所述初始训练样本对应的真实标签向量、所述初始训练样本输入初始分类模型所得到的预测向量,确定出交叉熵损失函数包括:
3.根据权利要求2所述的敏感信息识别方法,其特征在于,所述根据所述预测向量、增强后的初始训练样本输入所述初始分类模型所得到的新的预测向量,确定出一致性损失函数包括:
4.根据权利要求1所述的敏感信息识别方法,其特征在于,所述初始数据集包括初始标记训练集和初始标记验证集;
5.根据权利要求4所述的敏感信息识别方法,其特征在于,所述利用所述初始标记训练集以及从未标注数据中筛选出的敏感信息候选集,对所述训练后的分类模型进行参数调整,以得到微调分类模型包括:
6.根据权利要求5所述的敏感信息识别方法,其特征在于,所述对所述未标注数据进行字词匹配和语义识别,以筛选出所述敏感信息候选集包括:
7.根据权利要求5所述的敏感信息识别方法,其特征在于,所述训练样本包括敏感数据和非敏感数据;
8.根据权利要求5所述的敏感信息识别方法,其特征在于,所述损失函数包括微调阶段的交叉熵损失函数和微调阶段的一致性损失函数;
9.根据权利要求7所述的敏感信息识别方法,其特征在于,所述基于所述微调分类模型在所述初始标记验证集上的识别精度,从所述敏感信息候选集中筛选出伪标签数据集包括:
10.根据权利要求9所述的敏感信息识别方法,其特征在于,所述在所述识别精度满足设定的精度要求的情况下,将所述敏感数据及其对应的预测标签作为所述伪标签数据集包括:
11.根据权利要求10所述的敏感信息识别方法,其特征在于,在所述将所述敏感数据及其对应的预测标签作为所述伪标签数据集之后,还包括:
12.根据权利要求7所述的敏感信息识别方法,...
【专利技术属性】
技术研发人员:刘红丽,王超,申冲,
申请(专利权)人:苏州元脑智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。