一种基于预训练模型的多模型电力敏感信息识别方法技术

技术编号:38244572 阅读:17 留言:0更新日期:2023-07-25 18:06
本发明专利技术公开了一种基于预训练模型的多模型电力敏感信息识别方法,包括:获取历史电力信息数据集并对其进行敏感信息标注,获得训练集;基于预训练语言模型构建N个神经网络模型,并利用所述训练集对所述N个神经网络模型进行训练,其中N大于等于2;利用训练好的N个神经网络模型对待识别的电力信息数据集进行敏感信息识别,获得N个识别结果;输出最终识别结果:若N个识别结果相同,则直接输出识别结果;若N个识别结果不相同,则基于统计学习的多模型决策方法对所述N个识别结果进行处理,依据处理结果输出最终识别结果。本发明专利技术公开的一种基于预训练模型的多模型电力敏感信息识别方法显著提高了电力敏感信息识别模型的泛化能力和准确率。准确率。准确率。

【技术实现步骤摘要】
一种基于预训练模型的多模型电力敏感信息识别方法


[0001]本专利技术涉及电力数据安全
,更具体的说是涉及一种基于预训练模型的多模型电力敏感信息识别方法。

技术介绍

[0002]电力企业在运行过程中积累了大量的电力生产和运行数据,其中敏感信息的数量及种类也不断增多,这些敏感信息一旦遭到泄漏,可能严重影响电力企业的运行和发展。近年来,为了对企业关键敏感信息进行有效保护,敏感信息识别成为一项热门课题,其涉及人工智能、文本挖掘、信息安全等多个领域,对企业数据资产管理和内部系统安全具有重要意义,进一步提升了电力企业的数字化水平。
[0003]传统的敏感信息识别通常采用关键字符匹配、正则表达式检测、文档属性判别等技术。但是随着深度学习技术的兴起,通过深度神经网络实现文本内在特征的提取,分析理解文本涵义,进而实现文本分类、命名实体识别的方案,为电力敏感信息识别提供了解决思路。同时,相对于传统自然语言处理算法,预训练模型(例如Google提出的基于双向Transformers编码表示(Bidirectional Encoder Representations form Transformers,BERT)的预训练语言模型,百度提出的基于持续学习的语义理解预训练框架(Enhanced RepresentationthroughKnowledge Integration,ERNIE))在准确性和实用性上实现了较大的突破,其能够充分提升模型泛化能力,并显著降低人工标注文本的工作量。
[0004]针对现有电力文本挖掘技术方案存在的很多不足,即:电力敏感信息识别模型的泛化能力和准确率有待提高。
[0005]因此,如何提供一种泛化能力更好和识别准确率更高的电力敏感信息识别模型是本领域技术人员亟需解决的问题。

技术实现思路

[0006]有鉴于此,本专利技术的目的是提供一种基于预训练模型的多模型电力敏感信息识别方法,以提高电力敏感信息识别模型的泛化能力和准确率。
[0007]为了实现上述目的,本专利技术采用如下技术方案:
[0008]一种基于预训练模型的多模型电力敏感信息识别方法,包括以下步骤:
[0009]S1:获取历史电力信息数据集并对其进行敏感信息标注,获得训练集;
[0010]S2:基于预训练语言模型构建N个神经网络模型,并利用所述训练集对所述N个神经网络模型进行训练,其中N大于等于2;
[0011]S3:利用训练好的N个神经网络模型对待识别的电力信息数据集进行敏感信息识别,获得N个识别结果;
[0012]S4:输出最终识别结果:
[0013]若N个识别结果相同,则直接输出识别结果;
[0014]若N个识别结果不相同,则基于统计学习的多模型决策方法对所述N个识别结果进
行处理,依据处理结果输出最终识别结果。
[0015]优选的,所述S1进行敏感信息标注后还进一步获得验证集;所述验证集用于训练过程中的同步验证。
[0016]优选的,所述S1进行敏感信息标注后还进一步获得测试集;所述测试集用于测试训练好的神经网络模型的准确度和损失率。
[0017]优选的,所述S1进一步包括对历史电力信息数据集进行清洗、分词和去停用词。
[0018]优选的,所述N个神经网络模型包括:卷积神经网络、双向长短期记忆网络、双向门控循环单元神经网络、注意力机制的卷积神经网络、卷积门控循环单元。
[0019]优选的,所述预训练语言模型包括:RBT3模型。
[0020]优选的,所述S4进一步包括:
[0021]基于统计学习的多模型决策方法分别计算所述N个识别结果的可信度;
[0022]若N个识别结果的可信度均高于可信度阈值,则对N个识别结果进行投票处理并将投票结果作为最终识别结果;
[0023]若N个识别结果的可信度部分高于所述可信度阈值,则将可信度最高的识别结果做为最终识别结果;
[0024]若N个识别结果的可信度均低于所述可信度阈值,则计算所述N个识别结果的置信度,并计算可信度和置信度的乘积,将乘积最大的网络模型的识别结果作为最终识别结果。
[0025]优选的,所述可信度阈值为0.2。
[0026]优选的,所述投票处理采用少数服从多数的方式。
[0027]优选的,所述可信度和置信度的计算公式为:
[0028][0029]A
con
(x*)=1

max(p
x*
\A
cred
(x*))
[0030]其中,x*表示待识别的电力信息数据;l
i
表示模型赋给x*的标签;C表示标签为l
i
的历史电力信息数据集;样本j∈C;a
x*
表示x*对于C的不一致得分,不一致得分由模型给出;a
j
表示样本j对于C的不一致得分,不一致得分由模型给出;{j:a
j
≥a
x*
}表示在历史电力信息数据集C中,不一致得分大于a
x*
的所有样本;表示标签l
i
对于样本x*的可信度,即用x*与C的相似程度表示可信度A
cred
(x*);p
x*
表示样本x*对于所有标签的可信度值,是一个集合;A
con
(x*)表示置信度,即样本x*与其他类别标签的差异程度;||用于计算集合中样本的数量;max(p
x*
\A
cred
(x*))表示从集合p
x*
中排除元素A
cred
(x*)后,所剩余的元素中的最大值。
[0031]经由上述的技术方案可知,与现有技术相比,本专利技术提供的一种基于预训练模型的多模型电力敏感信息识别方法,产生以下有益技术效果:
[0032]1:本专利技术采用预训练模型构建神经网络模型可以节省训练时间,降低训练成本,提高模型构建效率;
[0033]2:本专利技术在预训练模型的基础上构建了多个神经网络识别模型,最终输出结果也融合了多个神经网络模型的识别结果,显著提高了电力敏感信息识别模型的泛化能力和准确率;
[0034]3:本专利技术根据构建的神经网络模型输出结果的不同,分别采用不同的处理方式输出最终识别结果,可以显著提高电力敏感信息识别的准确率。
附图说明
[0035]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0036]图1为本专利技术公开的一种基于预训练模型的多模型电力敏感信息识别方法的流程图。
具体实施方式
[0037]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于预训练模型的多模型电力敏感信息识别方法,其特征在于,包括以下步骤:S1:获取历史电力信息数据集并对其进行敏感信息标注,获得训练集;S2:基于预训练语言模型构建N个神经网络模型,并利用所述训练集对所述N个神经网络模型进行训练,其中N大于等于2;S3:利用训练好的N个神经网络模型对待识别的电力信息数据集进行敏感信息识别,获得N个识别结果;S4:输出最终识别结果:若N个识别结果相同,则直接输出识别结果;若N个识别结果不相同,则基于统计学习的多模型决策方法对所述N个识别结果进行处理,依据处理结果输出最终识别结果。2.根据权利要求1所述的一种基于预训练模型的多模型电力敏感信息识别方法,其特征在于,所述S1进行敏感信息标注后还进一步获得验证集;所述验证集用于训练过程中的同步验证。3.根据权利要求1所述的一种基于预训练模型的多模型电力敏感信息识别方法,其特征在于,所述S1进行敏感信息标注后还进一步获得测试集;所述测试集用于测试训练好的神经网络模型的准确度和损失率。4.根据权利要求1所述的一种基于预训练模型的多模型电力敏感信息识别方法,其特征在于,所述S1进一步包括对历史电力信息数据集进行清洗、分词和去停用词。5.根据权利要求1所述的一种基于预训练模型的多模型电力敏感信息识别方法,其特征在于,所述N个神经网络模型包括:卷积神经网络、双向长短期记忆网络、双向门控循环单元神经网络、注意力机制的卷积神经网络、卷积门控循环单元。6.根据权利要求1所述的一种基于预训练模型的多模型电力敏感信息识别方法,其特征在于,所述预训练语言模型包括:RBT3模型。7.根据权利要求1所述的一种基于预训练模型的多模型电力敏感信息识别方法,其特征在于,所述S4进一步包括:基于统计学习的多模型决策方法分别计算所述N个识别结果的可信度;若N个识别结果的可信度均高于可信度阈值,则对N个识别结果进行投票处理并将投票结果作为最终识别结果;若N个识别结果的可信度部分高于所述...

【专利技术属性】
技术研发人员:陈莉乔勇符士侃曹晶王磊相增辉陈轩吴可人李瑾辉
申请(专利权)人:国网江苏省电力有限公司信息通信分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1