一种基于预训练模型的多模型电力敏感信息识别方法技术

技术编号：38244572 阅读：17 留言：0更新日期：2023-07-25 18:06

本发明专利技术公开了一种基于预训练模型的多模型电力敏感信息识别方法，包括：获取历史电力信息数据集并对其进行敏感信息标注，获得训练集；基于预训练语言模型构建N个神经网络模型，并利用所述训练集对所述N个神经网络模型进行训练，其中N大于等于2；利用训练好的N个神经网络模型对待识别的电力信息数据集进行敏感信息识别，获得N个识别结果；输出最终识别结果：若N个识别结果相同，则直接输出识别结果；若N个识别结果不相同，则基于统计学习的多模型决策方法对所述N个识别结果进行处理，依据处理结果输出最终识别结果。本发明专利技术公开的一种基于预训练模型的多模型电力敏感信息识别方法显著提高了电力敏感信息识别模型的泛化能力和准确率。准确率。准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于预训练模型的多模型电力敏感信息识别方法

[0001]本专利技术涉及电力数据安全
，更具体的说是涉及一种基于预训练模型的多模型电力敏感信息识别方法。

技术介绍

[0002]电力企业在运行过程中积累了大量的电力生产和运行数据，其中敏感信息的数量及种类也不断增多，这些敏感信息一旦遭到泄漏，可能严重影响电力企业的运行和发展。近年来，为了对企业关键敏感信息进行有效保护，敏感信息识别成为一项热门课题，其涉及人工智能、文本挖掘、信息安全等多个领域，对企业数据资产管理和内部系统安全具有重要意义，进一步提升了电力企业的数字化水平。
[0003]传统的敏感信息识别通常采用关键字符匹配、正则表达式检测、文档属性判别等技术。但是随着深度学习技术的兴起，通过深度神经网络实现文本内在特征的提取，分析理解文本涵义，进而实现文本分类、命名实体识别的方案，为电力敏感信息识别提供了解决思路。同时，相对于传统自然语言处理算法，预训练模型(例如Google提出的基于双向Transformers编码表示(Bidirectional Encoder Representations form Transformers,BERT)的预训练语言模型，百度提出的基于持续学习的语义理解预训练框架(Enhanced RepresentationthroughKnowledge Integration,ERNIE))在准确性和实用性上实现了较大的突破，其能够充分提升模型泛化能力，并显著降低人工标注文本的工作量。
[0004]针对现有电力文本挖掘...

【技术保护点】

【技术特征摘要】
1.一种基于预训练模型的多模型电力敏感信息识别方法，其特征在于，包括以下步骤：S1：获取历史电力信息数据集并对其进行敏感信息标注，获得训练集；S2：基于预训练语言模型构建N个神经网络模型，并利用所述训练集对所述N个神经网络模型进行训练，其中N大于等于2；S3：利用训练好的N个神经网络模型对待识别的电力信息数据集进行敏感信息识别，获得N个识别结果；S4：输出最终识别结果：若N个识别结果相同，则直接输出识别结果；若N个识别结果不相同，则基于统计学习的多模型决策方法对所述N个识别结果进行处理，依据处理结果输出最终识别结果。2.根据权利要求1所述的一种基于预训练模型的多模型电力敏感信息识别方法，其特征在于，所述S1进行敏感信息标注后还进一步获得验证集；所述验证集用于训练过程中的同步验证。3.根据权利要求1所述的一种基于预训练模型的多模型电力敏感信息识别方法，其特征在于，所述S1进行敏感信息标注后还进一步获得测试集；所述测试集用于测试训练好的神经网络模型的准确度和损失率。4.根据权利要求1所述的一种基于预训练模型的多模型电力敏感信息识别方法，其特征在于，所述S1进一步包括对历史电力信息数据集进行清洗、分词和去停用词。5.根据权利要求1所述的一种基于预训练模型的多模型电力敏感信息识别方法，其特征在于，所述N个神经网络模型包括：卷积神经网络、双向长短期记忆网络、双向门控循环单元神经网络、注意力机制的卷积神经网络、卷积门控循环单元。6.根据权利要求1所述的一种基于预训练模型的多模型电力敏感信息识别方法，其特征在于，所述预训练语言模型包括：RBT3模型。7.根据权利要求1所述的一种基于预训练模型的多模型电力敏感信息识别方法，其特征在于，所述S4进一步包括：基于统计学习的多模型决策方法分别计算所述N个识别结果的可信度；若N个识别结果的可信度均高于可信度阈值，则对N个识别结果进行投票处理并将投票结果作为最终识别结果；若N个识别结果的可信度部分高于所述...

【专利技术属性】
技术研发人员：陈莉，乔勇，符士侃，曹晶，王磊，相增辉，陈轩，吴可人，李瑾辉，
申请(专利权)人：国网江苏省电力有限公司信息通信分公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人