一种敏感信息确定方法及装置制造方法及图纸

技术编号:21892240 阅读:32 留言:0更新日期:2019-08-17 14:38
本申请提供一种敏感信息确定方法及装置,用于改善从文本信息中识别敏感信息的正确率比较低的问题。该敏感信息确定方法包括:利用预先训练的词嵌入模型提取第一数据的第一特征向量,第一数据是将获得的文本信息进行编码、对齐和索引获得的;利用预先训练的长短记忆网络模型识别与第一特征向量对应的标签,获得第一标签;判断第一标签是否为预设标签,预设标签为表征文本信息为敏感内容的标签;若是,则确定文本信息为敏感信息。该方法使用大量数据预先训练的词嵌入模型和长短记忆网络模型对文本信息进行处理和识别,从而有效地提高了从文本信息中识别敏感信息的正确率。

A Method and Device for Determining Sensitive Information

【技术实现步骤摘要】
一种敏感信息确定方法及装置
本申请涉及机器学习
,具体而言,涉及一种敏感信息确定方法及装置。
技术介绍
目前,将信息系统中的大量数据传输给其它公司的数据分析系统进行分析时,该信息系统中的大量数据通常包含大量的个人隐私信息,以医疗信息系统为例,医疗信息系统中包含大量的病人病历的隐私敏感信息。如果要将该信息系统中的大量数据传输给其它公司的数据分析系统进行分析,出于隐私保护的角度考虑,通常需要对这些敏感信息进行脱敏处理。信息系统中的大量数据包含大量的短文本信息,现有技术中大都是基于规则匹配来识别信息系统中的短文本信息是否为敏感信息的,例如,基于正则表达式的方法进行规则匹配,当满足该正则表达式的匹配要求,则判定该文本信息为敏感信息,然而这种基于正则表达式的方法适应不规范数据的能力较差,导致从文本信息中识别敏感信息的正确率比较低。
技术实现思路
本申请实施例的目的在于提供一种敏感信息确定方法,用于改善从文本信息中识别敏感信息的正确率比较低的问题。本申请实施例提供了的一种敏感信息确定方法,包括:利用预先训练的词嵌入模型提取第一数据的第一特征向量,所述第一数据是将获得的文本信息进行编码、对齐和索引获得的;利用预先训练的长短记忆网络模型识别与所述第一特征向量对应的标签,获得第一标签;判断所述第一标签是否为预设标签,所述预设标签为表征所述文本信息为敏感内容的标签;若是,则确定所述文本信息为敏感信息。通过以上的方法步骤,使用大量数据预先训练的词嵌入模型和长短记忆网络模型对文本信息进行处理和识别,从而有效地改善了从文本信息中识别敏感信息的正确率比较低的问题。可选地,在本申请实施例中,所述判断所述第一标签是否为预设标签,包括:判断所述第一标签是否为姓名、身份证号、社保账号中的一种,若是则确定所述第一标签为预设标签。通过以上的方法步骤,判断获得的第一标签是否为个人隐私信息,例如姓名、身份证号、社保账号中的一种,来判断是否为预设标签,从而有效的提高了从文本信息中识别敏感信息的正确率。可选地,在本申请实施例中,在所述确定所述文本信息为敏感信息之后,还包括:将所述文本信息中的至少一个字符替换为预设字符。通过以上的方法步骤,将文本信息中的敏感信息的至少一个字符替换为预设字符,有效地降低了文本信息中的敏感信息的比例。可选地,在本申请实施例中,在所述利用预先训练的词嵌入模型提取第一数据的第一特征向量之前,还包括:对所述文本信息的字符数量进行增加或删除,以使所述文本信息的长度与所述长短记忆网络模型的输入量长度相同。通过以上的方法步骤,对文本信息的字符数量进行增加或删除,以使文本信息的长度与长短记忆网络模型的输入量长度相同,从而有效地缩短了长短记忆网络模型对文本信息的处理时间。可选地,在本申请实施例中,还包括:获得多个第二特征向量和多个与所述第二特征向量对应的第二标签;以所述第二特征向量为输入量,以所述第二特征向量对应的第二标签为输出量,对长短记忆网络进行训练,获得所述长短记忆网络模型。通过以上的方法步骤,将多个第二特征向量和对应的第二标签输入长短记忆网络进行训练,有效地提升了训练后的长短记忆网络模型从文本信息中识别敏感信息的正确率。可选地,在本申请实施例中,所述获得多个第二特征向量和多个与所述第二特征向量对应的第二标签,包括:获得多个第二数据;利用所述词嵌入模型对每个所述第二数据提取所述第二特征向量,获得所述多个第二特征向量,所述第二数据与所述第二特征向量对应;将所述多个第二数据按照数据类型划分为多个分类标签,获得多个与所述第二特征向量对应的第二标签。通过以上的方法步骤,将多个第二数据提取获得第二特征向量,以及按照数据类型将第二数据划分为多个分类标签获得第二标签,准备好训练的数据从而有效地缩短了长短记忆网络模型的训练时间。可选地,在本申请实施例中,所述获得多个第二数据,包括:获得预设数量的信息记录,所述信息记录包括多个类型的信息数据;将所述信息数据按照所述多个类型分别进行预设处理,获得所述多个第二数据。通过以上的方法步骤,获得包括多个类型的信息数据的信息记录,并按照多个类型分别进行预设处理获得多个第二数据,有效地增加了数据的多样性,从而增强了长短记忆网络模型的泛化能力,即对多样性数据的适应能力。本申请实施例还提供了一种敏感信息确定装置,包括:第一数据提取模块,用于利用预先训练的词嵌入模型提取第一数据的第一特征向量,所述第一数据是将获得的文本信息进行编码、对齐和索引获得的;第一标签获得模块,用于利用预先训练的长短记忆网络模型识别与所述第一特征向量对应的标签,获得第一标签;第一标签判断模块,用于判断所述第一标签是否为预设标签,所述预设标签为表征所述文本信息为敏感内容的标签;敏感信息确定模块,用于确定所述文本信息为敏感信息。使用以上的装置,通过大量数据预先训练的词嵌入模型和长短记忆网络模型对文本信息进行处理和识别,从而有效地改善了从文本信息中识别敏感信息的正确率比较低的问题。可选地,在本申请实施例中,所述第一标签判断模块包括:预设标签确定模块,用于判断所述第一标签是否为姓名、身份证号、社保账号中的一种,若是则确定所述第一标签为预设标签。可选地,在本申请实施例中,还包括:文本信息替换模块,用于将所述文本信息中的至少一个字符替换为预设字符。可选地,在本申请实施例中,还包括:文本信息增删模块,用于对所述文本信息的字符数量进行增加或删除,以使所述文本信息的长度与所述长短记忆网络模型的输入量长度相同。可选地,在本申请实施例中,还包括:第二标签获得模块,用于获得多个第二特征向量和多个与所述第二特征向量对应的第二标签;训练模型获得模块,用于以所述第二特征向量为输入量,以所述第二特征向量对应的第二标签为输出量,对长短记忆网络进行训练,获得所述长短记忆网络模型。可选地,在本申请实施例中,还包括:第二数据获得模块,用于获得多个第二数据;第二数据提取模块,用于利用所述词嵌入模型对每个所述第二数据提取所述第二特征向量,获得所述多个第二特征向量,所述第二数据与所述第二特征向量对应;第二标签获得模块,用于将所述多个第二数据按照数据类型划分为多个分类标签,获得多个与所述第二特征向量对应的第二标签。可选地,在本申请实施例中,所述第二数据获得模块包括:信息记录获得模块,用于获得预设数量的信息记录,所述信息记录包括多个类型的信息数据;第二数据处理模块,用于将所述信息数据按照所述多个类型分别进行预设处理,获得所述多个第二数据。本申请实施例还提供了一种电子设备,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如上所述的方法。本申请实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上所述的方法。本申请实施例中提供一种敏感信息确定方法及装置,通过对文本信息进行编码、对齐和索引获得第一数据后,再通过预先训练的词嵌入模型提取第一数据的第一特征向量,然后通过预先训练的长短记忆网络模型识别该第一特征向量获得第一标签,最后通过判断第一标签是否为预设标签来确定文本信息是否为敏感信息。通过大量数据预先训练的词嵌入模型和长短记忆网络模型对文本信息进行处理和识别,从而有效地改善了从文本信息中识本文档来自技高网...

【技术保护点】
1.一种敏感信息确定方法,其特征在于,包括:利用预先训练的词嵌入模型提取第一数据的第一特征向量,所述第一数据是将获得的文本信息进行预处理获得的;利用预先训练的长短记忆网络模型识别与所述第一特征向量对应的标签,获得第一标签;判断所述第一标签是否为预设标签,所述预设标签为表征所述文本信息为敏感内容的标签;若是,则确定所述文本信息为敏感信息。

【技术特征摘要】
1.一种敏感信息确定方法,其特征在于,包括:利用预先训练的词嵌入模型提取第一数据的第一特征向量,所述第一数据是将获得的文本信息进行预处理获得的;利用预先训练的长短记忆网络模型识别与所述第一特征向量对应的标签,获得第一标签;判断所述第一标签是否为预设标签,所述预设标签为表征所述文本信息为敏感内容的标签;若是,则确定所述文本信息为敏感信息。2.如权利要求1所述的方法,其特征在于,所述判断所述第一标签是否为预设标签,包括:判断所述第一标签是否为姓名、身份证号、社保账号中的一种,若是则确定所述第一标签为预设标签。3.如权利要求1所述的方法,其特征在于,在所述确定所述文本信息为敏感信息之后,还包括:将所述文本信息中的至少一个字符替换为预设字符。4.如权利要求1所述的方法,其特征在于,在所述利用预先训练的词嵌入模型提取第一数据的第一特征向量之前,还包括:对所述文本信息的字符数量进行增加或删除,以使所述文本信息的长度与所述长短记忆网络模型的输入量长度相同。5.如权利要求1所述的方法,其特征在于,还包括:获得多个第二特征向量和多个与所述第二特征向量对应的第二标签;以所述第二特征向量为输入量,以所述第二特征向量对应的第二标签为输出量,对长短记忆网络进行训练,获得所述长短记忆网络模型。6.如权利要求5所述的方法,其特征在于,所述获得多个第二特征向量和多个与所述第二特征向量...

【专利技术属性】
技术研发人员:代超戴卫云夏林生何帆周振
申请(专利权)人:中电健康云科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1