数据隐私保护方法、装置、系统及存储介质制造方法及图纸

技术编号:20725558 阅读:23 留言:0更新日期:2019-03-30 17:49
本发明专利技术提供一种数据隐私保护方法、装置、系统及存储介质,该方法,包括:通过获取物联网设备发送的原始数据;对所述原始数据进行隐私检测,若所述原始数据中包含有隐私数据,则将所述原始数据标记为机密数据;对所述机密数据进行隐私保护处理,得到处理后的目标数据;将所述目标数据发送给对应的目标接收端。从而实现了在靠近数据源头侧对物联网设备发送的原始数据,采用机器学习的方法进行隐私检测和隐私保护处理,将隐私处理后的数据发送给对应的目标接收端的目的,从而解决数据远距离传输数据过程中的安全问题,提高了隐私保护处理效率,节省了人力物力。

【技术实现步骤摘要】
数据隐私保护方法、装置、系统及存储介质
本专利技术涉及物联网
,尤其涉及一种数据隐私保护方法、装置、系统及存储介质。
技术介绍
随着物联网技术的发展,各种物联网设备每天都会产生巨大的数据量。在物联网设备产生的数据中,经常会包含一些用户的隐私数据,如果不对这些隐私数据进行防护,则在网络传播中会造成隐私数据的泄露。现有技术中,物联网设备生成的数据会被统一发送到后台数据中心/云服务器,然后由后台服务器进行数据隐私性检测。而在进行隐私数据判别时,一般采用人工筛查,或者关键词匹配的方式。但是,人工筛查的方式会耗费大量人力物力,并且很难覆盖所有的数据。而关键词匹配的方式非常依赖于已经收录的关键词库,若收录的关键词库中的关键词不全面,则会造成隐私数据的漏检。另外,由于物联网设备与后台数据中心/云服务器距离很远,数据传输需要经过多跳网络,因此很容易在传输过程中泄露隐私数据。
技术实现思路
本专利技术提供一种数据隐私保护方法、装置、系统及存储介质,以实现在靠近数据源头侧对物联网设备发送的原始数据,采用机器学习的方法进行隐私检测和隐私保护处理,将隐私处理后的数据发送给对应的目标接收端的目的,从而解决数据远距离传输数据过程中的安全问题,提高了隐私保护处理效率,节省了人力物力。第一方面,本专利技术实施例提供一种数据隐私保护方法,包括:获取物联网设备发送的原始数据;对所述原始数据进行隐私检测,若所述原始数据中包含有隐私数据,则将所述原始数据标记为机密数据;对所述机密数据进行隐私保护处理,得到处理后的目标数据;将所述目标数据发送给对应的目标接收端。可选地,对所述原始数据进行隐私检测,包括:确定所述原始数据的数据类型;其中,所述数据类型包括:文本数据、数字数据;根据所述原始数据的数据类型,进行不同形式的特征提取,得到所述原始数据对应的向量矩阵;将所述向量矩阵输入预设的机器学习模型中,由所述预设的机器学习模型输出所述原始数据的检测结果。可选地,根据所述原始数据的数据类型,进行不同形式的特征提取,得到所述原始数据对应的向量矩阵,包括:若所述原始数据的数据类型为文本数据,则对所述原始数据进行分词处理,得到对应的文本特征集;其中,分词处理后的文本特征包括:单词、二元词组;获取所述文本特征集中各个文本特征所对应的特征值;根据所述特征值,构建所述原始数据对应的向量矩阵。可选地,获取所述文本特征集中各个文本特征所对应的特征值,包括:分别获取所述文本特征的文本频率值和逆文本频率值;计算所述文本频率值和逆文本频率值的乘积,得到所述文本特征的特征值。可选地,分别获取所述文本特征的文本频率值和逆文本频率值,包括:将所述文本特征在文本特征集中出现的频率定义为文本频率值S1,S1的计算公式如下:其中,n为文本特征在文本特征集中出现的次数,N为所有文本特征在文本特征集中出现的次数总和;所述逆文本频率值S2的计算公式如下:其中:D为知识库中总文件数目,C为包含对应文本特征的文件的数目。可选地,根据所述原始数据的数据类型,进行不同形式的特征提取,得到所述原始数据对应的向量矩阵,包括:若所述原始数据的数据类型为数字数据,则将所述数字数据中的数字按照预设的格式,组成对应的向量矩阵。可选地,所述预设的机器学习模型采用训练好的支持向量机模型。可选地,在对所述原始数据进行隐私检测之后,还包括:若所述原始数据中未包含有隐私数据,则直接将所述原始数据发送给对应的目标接收端。可选地,对所述机密数据进行隐私保护处理,得到处理后的目标数据,包括:对所述机密数据中的隐私数据进行去隐私化处理,去隐私化处理方式包括:K-匿名化,I-多样性、差分隐私。第二方面,本专利技术实施例提供一种数据隐私保护装置,包括:获取模块,用于获取物联网设备发送的原始数据;隐私检测模块,用于对所述原始数据进行隐私检测,若所述原始数据中包含有隐私数据,则将所述原始数据标记为机密数据;处理模块,用于对所述机密数据进行隐私保护处理,得到处理后的目标数据;转发模块,用于将所述目标数据发送给对应的目标接收端。可选地,隐私检测模块,具体用于:确定所述原始数据的数据类型;其中,所述数据类型包括:文本数据、数字数据;根据所述原始数据的数据类型,进行不同形式的特征提取,得到所述原始数据对应的向量矩阵;将所述向量矩阵输入预设的机器学习模型中,由所述预设的机器学习模型输出所述原始数据的检测结果。可选地,根据所述原始数据的数据类型,进行不同形式的特征提取,得到所述原始数据对应的向量矩阵,包括:若所述原始数据的数据类型为文本数据,则对所述原始数据进行分词处理,得到对应的文本特征集;其中,分词处理后的文本特征包括:单词、二元词组;获取所述文本特征集中各个文本特征所对应的特征值;根据所述特征值,构建所述原始数据对应的向量矩阵。可选地,获取所述文本特征集中各个文本特征所对应的特征值,包括:分别获取所述文本特征的文本频率值和逆文本频率值;计算所述文本频率值和逆文本频率值的乘积,得到所述文本特征的特征值。可选地,分别获取所述文本特征的文本频率值和逆文本频率值,包括:将所述文本特征在文本特征集中出现的频率定义为文本频率值S1,S1的计算公式如下:其中,n为文本特征在文本特征集中出现的次数,N为所有文本特征在文本特征集中出现的次数总和;所述逆文本频率值S2的计算公式如下:其中:D为知识库中总文件数目,C为包含对应文本特征的文件的数目。可选地,根据所述原始数据的数据类型,进行不同形式的特征提取,得到所述原始数据对应的向量矩阵,包括:若所述原始数据的数据类型为数字数据,则将所述数字数据中的数字按照预设的格式,组成对应的向量矩阵。可选地,所述预设的机器学习模型采用训练好的支持向量机模型。可选地,还包括:分流模块,用于在对所述原始数据进行隐私检测之后,若所述原始数据中未包含有隐私数据,则直接将所述原始数据发送给对应的目标接收端。可选地,处理模块,具体用于:对所述机密数据中的隐私数据进行去隐私化处理,去隐私化处理方式包括:K-匿名化,I-多样性、差分隐私。第三方面,本专利技术实施例提供一种数据隐私保护系统,包括:存储器和处理器,存储器中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行第一方面中任一项所述的数据隐私保护方法。第四方面,本专利技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述的数据隐私保护方法。本专利技术提供一种数据隐私保护方法、装置、系统及存储介质,通过获取物联网设备发送的原始数据;对所述原始数据进行隐私检测,若所述原始数据中包含有隐私数据,则将所述原始数据标记为机密数据;对所述机密数据进行隐私保护处理,得到处理后的目标数据;将所述目标数据发送给对应的目标接收端。从而实现了在靠近数据源头侧对物联网设备发送的原始数据,采用机器学习的方法进行隐私检测和隐私保护处理,将隐私处理后的数据发送给对应的目标接收端的目的,从而解决数据远距离传输数据过程中的安全问题,提高了隐私保护处理效率,节省了人力物力。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通本文档来自技高网...

【技术保护点】
1.一种数据隐私保护方法,其特征在于,包括:获取物联网设备发送的原始数据;对所述原始数据进行隐私检测,若所述原始数据中包含有隐私数据,则将所述原始数据标记为机密数据;对所述机密数据进行隐私保护处理,得到处理后的目标数据;将所述目标数据发送给对应的目标接收端。

【技术特征摘要】
1.一种数据隐私保护方法,其特征在于,包括:获取物联网设备发送的原始数据;对所述原始数据进行隐私检测,若所述原始数据中包含有隐私数据,则将所述原始数据标记为机密数据;对所述机密数据进行隐私保护处理,得到处理后的目标数据;将所述目标数据发送给对应的目标接收端。2.根据权利要求1所述的方法,其特征在于,对所述原始数据进行隐私检测,包括:确定所述原始数据的数据类型;其中,所述数据类型包括:文本数据、数字数据;根据所述原始数据的数据类型,进行不同形式的特征提取,得到所述原始数据对应的向量矩阵;将所述向量矩阵输入预设的机器学习模型中,由所述预设的机器学习模型输出所述原始数据的检测结果。3.根据权利要求2所述的方法,其特征在于,根据所述原始数据的数据类型,进行不同形式的特征提取,得到所述原始数据对应的向量矩阵,包括:若所述原始数据的数据类型为文本数据,则对所述原始数据进行分词处理,得到对应的文本特征集;获取所述文本特征集中各个文本特征所对应的特征值;根据所述特征值,构建所述原始数据对应的向量矩阵。4.根据权利要求3所述的方法,其特征在于,获取所述文本特征集中各个文本特征所对应的特征值,包括:分别获取所述文本特征的文本频率值和逆文本频率值;计算所述文本频率值和逆文本频率值的乘积,得到所述文本特征的特征值。5.根据权利要求4所述的方法,其特征在于,分别获取所述文本特征的文本频率值和逆文本频率值,包括:将所述文本特征在文本特征集中出现的频率定义为文本频率值S1,S1的计算公式如下:其中,n为文本特征在文本特征集中出现的次数,N...

【专利技术属性】
技术研发人员:孟健程万军何光宇赵赫
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1