脱敏数据确定方法、装置、可读介质及电子设备制造方法及图纸

技术编号:24011012 阅读:16 留言:0更新日期:2020-05-02 01:44
本发明专利技术公开了一种脱敏数据确定方法、装置、计算机可读存储介质及电子设备,方法包括:获取能源数据中每个字符分别对应的特征向量;根据所述字符对应的特征向量,获取所述字符对应在每个预设标签的分数;根据每个所述字符分别对应在每个预设标签的分数,获取所述能源数据中的敏感数据;根据所述敏感数据,获取所述能源数据对应的脱敏数据。通过本发明专利技术的技术方案,可较为准确的获取能源数据中的敏感数据,进而提高脱敏数据的安全性。

Desensitization data determination method, device, readable medium and electronic equipment

【技术实现步骤摘要】
脱敏数据确定方法、装置、可读介质及电子设备
本专利技术涉及能源
,尤其涉及脱敏数据确定方法、装置、可读存储介质及电子设备。
技术介绍
随着计算机的快速发展,采集、存储、共享的能源数据的数量越来越大,为了降低敏感数据泄漏的风险,保证数据安全,避免不必要的纠纷,数据脱敏是非常必要的。目前,主要通过规则和正则匹配的方式对能源数据进行敏感数据识别,然后用预设词替换识别出的敏感数据,从而得到脱敏数据。但是,当数据发生较大变化时,规则和正则匹配的方式可能无法较为准确的获取能源数据中的敏感数据,导致上述方法识别出的敏感数据的参考价值相对较低,从而降低脱敏数据的安全性。
技术实现思路
本专利技术提供了一种脱敏数据确定方法、装置、计算机可读存储介质及电子设备,可较为准确的获取能源数据中的敏感数据,进而提高脱敏数据的安全性。第一方面,本专利技术提供了一种脱敏数据确定方法,包括:获取能源数据中每个字符分别对应的特征向量;根据所述字符对应的特征向量,获取所述字符对应在每个预设标签的分数;根据每个所述字符分别对应在每个预设标签的分数,获取所述能源数据中的敏感数据;根据所述敏感数据,获取所述能源数据对应的脱敏数据。优选地,所述获取能源数据中每个字符分别对应的特征向量,包括:获取所述能源数据中每个字符分别对应的语义向量;将每个所述字符分别对应的语义向量代入语言模型中,获取每个所述字符分别对应的特征向量,其中,所述语言模型包括至少一层编码器。<br>优选地,所述获取所述能源数据中每个字符分别对应的语义向量,包括:获取所述能源数据中每个字符分别对应的词向量和位置信息向量;针对每个所述字符,对所述字符对应的词向量和位置信息向量进行拼接,得到所述字符对应的语义向量。优选地,所述编码器包括基于多头自注意力机制的transformer神经网络或循环神经网络。优选地,所述根据所述字符对应的特征向量,获取所述字符对应在每个预设标签的分数,包括:将每个所述字符分别对应的特征向量代入双向循环神经网络模型中,获取每个所述字符分别对应在每个预设标签的分数。优选地,所述根据每个所述字符分别对应在每个预设标签的分数,获取所述能源数据中的敏感数据,包括:根据每个所述字符分别对应在每个预设标签的分数,确定每个标签序列的概率值,所述标签序列基于所述预设标签和所述字符确定;根据每个所述标签序列的概率值,确定目标标签序列;根据所述目标标签序列,获取所述能源数据中的敏感数据。优选地,所述预设标签包括用电对象和/或发电对象。第二方面,本专利技术提供了一种脱敏数据确定装置,包括:特征确定模块,用于获取能源数据中每个字符分别对应的特征向量;分数确定模块,用于根据所述字符对应的特征向量,获取所述字符对应在每个预设标签的概率值;敏感数据确定模块,用于根据每个所述字符分别对应在每个预设标签的分数,获取所述能源数据中的敏感数据;敏感数据确定,用于根据所述敏感数据,获取所述能源数据对应的脱敏数据。第三方面,本专利技术提供了一种计算机可读存储介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述处理器执行如第一方面中任一所述的方法。第四方面,本专利技术提供了一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如第一方面中任一所述的方法。本专利技术提供了一种脱敏数据确定方法、装置、计算机可读存储介质及电子设备,该方法通过获取能源数据中每个字符分别对应的特征向量,根据每个字符分别对应的特征向量,获取每个字符分别对应在每个预设标签的分数,之后,根据每个字符分别对应在每个预设标签的分数,获取能源数据的敏感数据,之后,根据敏感数据,获取能源数据对应的脱敏数据。综上所述,通过本专利技术的技术方案可较为准确的获取能源数据中的敏感数据,进而提高脱敏数据的安全性。上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明为了更清楚地说明本专利技术实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的一种脱敏数据确定方法的流程示意图;图2为本专利技术一实施例提供的一种脱敏数据确定装置的结构示意图;图3为本专利技术一实施例提供的一种电子设备的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本专利技术的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所述,本专利技术实施例提供了一种脱敏数据确定方法,包括如下各个步骤:步骤101,获取能源数据中每个字符分别对应的特征向量;步骤102,根据所述字符对应的特征向量,获取所述字符对应在每个预设标签的分数;步骤103,根据每个所述字符分别对应在每个预设标签的分数,获取所述能源数据中的敏感数据;步骤104,根据所述敏感数据,获取所述能源数据对应的脱敏数据。如图1所示的实施例,该方法通过获取能源数据中每个字符分别对应的特征向量,根据每个字符分别对应的特征向量,获取每个字符分别对应在每个预设标签的分数,之后,根据每个字符分别对应在每个预设标签的分数,识别出能源数据的敏感数据,之后,根据敏感数据,获取能源数据对应的脱敏数据。综上所述,通过本专利技术的技术方案可较为准确的获取能源数据中的敏感数据,进而提高脱敏数据的安全性。具体地,能源数据具体指的是包含敏感数据的文本。其中,敏感数据具体指的是隐私信息,这里,敏感数据包括但不限于能源机构、能源公司等。对应的,为了确定能源数据中的敏感数据,预设标签具体指的是敏感数据对应的实体类别,可选的,预设标签可以是用电对象、发电对象等实体类别,其中,用电对象具体指的是用电的企业名称、小区名称等,发电对象具体指的发电厂名称、发电企业名称等,显而易见的,预设标签的数量可以是多个,具体需要结合实际场景确定,本专利技术对此不做具体限定。字符对应的特征向量具体指的是对字符的语义表达。字符对应在预设标签的分数具体指的是字符被预测为该预设标签的可能性。脱敏数据具体指的是敏感数据被替换数据替换后的数据,显而易见的,替换数据不是敏感数据。需要说明的是,预设标签可以根据需要进行增加或减少,从而实现对不同能源数据的脱敏。本专利技术一个实施例中,所述获取能源数据中每个字符分别对应的特征向量,包括:获取所述能源数据中每个字符分别对应的语义向量;将每个所述字符分别本文档来自技高网...

【技术保护点】
1.一种脱敏数据确定方法,其特征在于,包括:/n获取能源数据中每个字符对应的特征向量;/n根据所述字符对应的特征向量,获取所述字符对应在每个预设标签的分数;/n根据每个所述字符分别对应在每个预设标签的分数,获取所述能源数据中的敏感数据;/n根据所述敏感数据,获取所述能源数据对应的脱敏数据。/n

【技术特征摘要】
1.一种脱敏数据确定方法,其特征在于,包括:
获取能源数据中每个字符对应的特征向量;
根据所述字符对应的特征向量,获取所述字符对应在每个预设标签的分数;
根据每个所述字符分别对应在每个预设标签的分数,获取所述能源数据中的敏感数据;
根据所述敏感数据,获取所述能源数据对应的脱敏数据。


2.根据权利要求1所述的方法,其特征在于,所述获取能源数据中每个字符对应的特征向量,包括:
获取所述能源数据中每个字符对应的语义向量;
将每个所述字符分别对应的语义向量代入语言模型中,获取每个所述字符分别对应的特征向量,其中,所述语言模型包括至少一层编码器。


3.根据权利要求2所述的方法,其特征在于,所述获取所述能源数据中每个字符对应的语义向量,包括:
获取所述能源数据中每个字符分别对应的词向量和位置信息向量;
针对每个所述字符,对所述字符对应的词向量和位置信息向量进行拼接,得到所述字符对应的语义向量。


4.根据权利要求3所述的方法,其特征在于,所述编码器包括基于多头自注意力机制的transformer神经网络或循环神经网络。


5.根据权利要求1所述的方法,其特征在于,所述根据所述字符对应的特征向量,获取所述字符对应在每个预设标签的分数,包括:
将每个所述字符分别对应的特征向量代入双向循环神经网络模型中,获取每个所述字符分别对应在...

【专利技术属性】
技术研发人员:王瑞杨
申请(专利权)人:新奥数能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1