一种敏感信息确定方法及装置制造方法及图纸

技术编号：21892240 阅读：32 留言：0更新日期：2019-08-17 14:38

本申请提供一种敏感信息确定方法及装置，用于改善从文本信息中识别敏感信息的正确率比较低的问题。该敏感信息确定方法包括：利用预先训练的词嵌入模型提取第一数据的第一特征向量，第一数据是将获得的文本信息进行编码、对齐和索引获得的；利用预先训练的长短记忆网络模型识别与第一特征向量对应的标签，获得第一标签；判断第一标签是否为预设标签，预设标签为表征文本信息为敏感内容的标签；若是，则确定文本信息为敏感信息。该方法使用大量数据预先训练的词嵌入模型和长短记忆网络模型对文本信息进行处理和识别，从而有效地提高了从文本信息中识别敏感信息的正确率。

A Method and Device for Determining Sensitive Information

全部详细技术资料下载

【技术实现步骤摘要】
一种敏感信息确定方法及装置
本申请涉及机器学习
，具体而言，涉及一种敏感信息确定方法及装置。
技术介绍
目前，将信息系统中的大量数据传输给其它公司的数据分析系统进行分析时，该信息系统中的大量数据通常包含大量的个人隐私信息，以医疗信息系统为例，医疗信息系统中包含大量的病人病历的隐私敏感信息。如果要将该信息系统中的大量数据传输给其它公司的数据分析系统进行分析，出于隐私保护的角度考虑，通常需要对这些敏感信息进行脱敏处理。信息系统中的大量数据包含大量的短文本信息，现有技术中大都是基于规则匹配来识别信息系统中的短文本信息是否为敏感信息的，例如，基于正则表达式的方法进行规则匹配，当满足该正则表达式的匹配要求，则判定该文本信息为敏感信息，然而这种基于正则表达式的方法适应不规范数据的能力较差，导致从文本信息中识别敏感信息的正确率比较低。
技术实现思路
本申请实施例的目的在于提供一种敏感信息确定方法，用于改善从文本信息中识别敏感信息的正确率比较低的问题。本申请实施例提供了的一种敏感信息确定方法，包括：利用预先训练的词嵌入模型提取第一数据的第一特征向量，所述第一数据是将获得的文本信息进行编码、对齐和索引获得的；利用预先训练的长短记忆网络模型识别与所述第一特征向量对应的标签，获得第一标签；判断所述第一标签是否为预设标签，所述预设标签为表征所述文本信息为敏感内容的标签；若是，则确定所述文本信息为敏感信息。通过以上的方法步骤，使用大量数据预先训练的词嵌入模型和长短记忆网络模型对文本信息进行处理和识别，从而有效地改善了从文本信息中识别敏感信息的正确率比较低的问题。可选地，在本申请实...

【技术保护点】
1.一种敏感信息确定方法，其特征在于，包括：利用预先训练的词嵌入模型提取第一数据的第一特征向量，所述第一数据是将获得的文本信息进行预处理获得的；利用预先训练的长短记忆网络模型识别与所述第一特征向量对应的标签，获得第一标签；判断所述第一标签是否为预设标签，所述预设标签为表征所述文本信息为敏感内容的标签；若是，则确定所述文本信息为敏感信息。

【技术特征摘要】
1.一种敏感信息确定方法，其特征在于，包括：利用预先训练的词嵌入模型提取第一数据的第一特征向量，所述第一数据是将获得的文本信息进行预处理获得的；利用预先训练的长短记忆网络模型识别与所述第一特征向量对应的标签，获得第一标签；判断所述第一标签是否为预设标签，所述预设标签为表征所述文本信息为敏感内容的标签；若是，则确定所述文本信息为敏感信息。2.如权利要求1所述的方法，其特征在于，所述判断所述第一标签是否为预设标签，包括：判断所述第一标签是否为姓名、身份证号、社保账号中的一种，若是则确定所述第一标签为预设标签。3.如权利要求1所述的方法，其特征在于，在所述确定所述文本信息为敏感信息之后，还包括：将所述文本信息中的至少一个字符替换为预设字符。4.如权利要求1所述的方法，其特征在于，在所述利用预先训练的词嵌入模型提取第一数据的第一特征向量之前，还包括：对所述文本信息的字符数量进行增加或删除，以使所述文本信息的长度与所述长短记忆网络模型的输入量长度相同。5.如权利要求1所述的方法，其特征在于，还包括：获得多个第二特征向量和多个与所述第二特征向量对应的第二标签；以所述第二特征向量为输入量，以所述第二特征向量对应的第二标签为输出量，对长短记忆网络进行训练，获得所述长短记忆网络模型。6.如权利要求5所述的方法，其特征在于，所述获得多个第二特征向量和多个与所述第二特征向量...

【专利技术属性】
技术研发人员：代超，戴卫云，夏林生，何帆，周振，
申请(专利权)人：中电健康云科技有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人