一种基于机器学习的脱敏方法、装置及脱敏设备制造方法及图纸

技术编号:21300140 阅读:54 留言:0更新日期:2019-06-12 08:04
本发明专利技术实施例涉及数据处理技术领域,例如涉及一种基于机器学习的脱敏方法、装置、脱敏设备及存储介质。方法包括:获取数据源,基于数据源提取特征向量,使用预设的基于神经网络的人工智能模型对特征向量进行分析,获得分析结果,最后根据分析结果对数据源进行脱敏,获得脱敏后的数据,由此能够深度挖掘出隐藏的敏感数据。

A Desensitization Method, Device and Equipment Based on Machine Learning

The embodiment of the present invention relates to the technical field of data processing, such as a desensitization method, device, desensitization device and storage medium based on machine learning. The methods include: acquiring data sources, extracting feature vectors based on data sources, analyzing feature vectors using presupposed artificial intelligence model based on neural network, obtaining analysis results, and finally desensitizing the data sources according to the analysis results, obtaining desensitized data, thus deep mining of hidden sensitive data.

【技术实现步骤摘要】
一种基于机器学习的脱敏方法、装置及脱敏设备
本专利技术涉及数据处理
,尤其是涉及一种基于机器学习的脱敏方法、装置、脱敏设备及存储介质。
技术介绍
随着大数据时代的发展,数据安全问题日益突出。在科学研究、产品开发、数据公开的过程中,算法需要收集、使用用户数据,在这过程中数据就不可避免的暴露在外。现如今很多数据安全厂商推出了数据脱敏产品,在对传统的脱敏产品研究中发现,传统的敏感数据发现功能大都基于规则匹配,无法精确深度的挖掘出隐藏的敏感数据。
技术实现思路
本专利技术的主要目的在于提供一种基于机器学习的脱敏方法、装置、脱敏设备及存储介质,能够深度挖掘敏感数据。第一方面,本专利技术实施例提供了一种基于机器学习的脱敏方法,包括以下步骤:获取数据源,并基于所述数据源提取特征向量;使用预设的基于神经网络的人工智能模型对所述特征向量进行分析,获得分析结果;根据所述分析结果对所述数据源进行脱敏,获得脱敏后的数据。在一些实施例中,所述方法还包括:获取基于神经网络的人工智能模型;所述获取基于神经网络的人工智能模型,包括:获取样本数据及对应的标签,并局域所述样本数据提取样本特征向量;将所述样本特征向量及对应的标签基于BiLSTM神经网络模型进行迭代训练,获取所述基于BiLSTM神经网络模型的各个参数;基于所述基于BiLSTM神经网络模型提取特征信息;将所述特征信息导入条件随机场得到基于神经网络的人工智能模型。在一些实施例中,所述方法还包括:使用预设的基于决策树人工智能模型对所述脱敏后的数据进行分析;根据分析结果对所述脱敏后的数据进行再次脱敏。在一些实施例中,所述方法还包括:获取基于决策树的人工智能模型;所述基于决策树的人工智能模型,包括:获取训练数据及对应的标签,并基于所述训练数据提取训练特征向量;将所述训练特征向量及对应的标签基于决策树的人工智能模型进行迭代训练,获取所述基于决策树的人工智能模型的各个参数。在一些实施例中,所述基于所述数据源提取特征向量,包括:使用word2vec将所述数据源转换为数学向量;所述基于所述样本数据提取样本特征向量,包括:使用word2vec将所述样本数据转换为数学向量。在一些实施例中,所述基于所述训练数据提取训练特征向量,包括:对所述训练数据进行分词处理,得到分词处理结果;使用TF-IDF技术将所述分词结果转换为数学向量。第二方面,本专利技术实施例还提供了一种基于机器学习的脱敏装置,包括:第一获取模块,用于获取数据源,并基于所述数据源提取特征向量;分析模块,用于使用预设的基于神经网络的人工智能模型对所述特征向量进行分析,获得分析结果;脱敏模块,用于根据所述分析结果对所述数据源进行脱敏,获取脱敏后的数据。在一些实施例中,所述装置还包括:第二获取模块,用于获取基于神经网络的人工智能模型;第一提取模块,用于获取样本数据及对应的标签,并基于所述样本数据提取样本特征向量;训练模块,用于将所述样本特征向量及其对应的标签基于BiLSTM神经网络模型进行迭代训练,获取所述基于BiLSTM神经网络模型的各个参数;第二提取模块,用于基于所述基于BiLSTM神经网络模型提取特征信息;导入模块,用于将所述特征信息导入条件随机场得到基于神经网络的人工智能模型。在一些实施例中,所述分析模块具体用于:使用预设的基于决策树的人工智能模型对所述脱敏后的数据进行分析。在一些实施例中,所述脱敏模块具体用于:根据分析结果对所述脱敏后的数据进行再次脱敏。在一些实施例中,所述第二获取模块还具体用于:获取基于决策树的人工智能模型;将所述训练特征向量及对应的标签基于决策树的人工智能模型进行迭代训练,获取所述基于决策树的人工智能模型的各个参数。在一些实施例中,所述第一提取模块还具有用于:获取训练数据及对应的标签,并基于所述训练数据提取训练特征向量;使用word2vec将所述数据源转换为数学向量;使用word2vec将所述样本数据转换为数学向量;对所述训练数据进行分词处理,得到分词处理结果;使用TF-IDF技术将所述分词结果转换为数学向量。第三方面,本专利技术实施例还提供了一种脱敏设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的方法。第四方面,本方面实施例还提供了一种非易失性计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,当所述计算机可执行指令被脱敏设备所执行时,使所述脱敏设备执行上述的方法。本专利技术实施例提供的机器学习的脱敏方法,通过获取数据源,并基于所述数据源提取特征向量,然后使用预设的基于神经网络的人工智能模型对所述特征向量进行分析,获取分析结果,最后根据所述分析结果对所述数据源进行脱敏,获得脱敏后的数据,能够深度挖掘出隐藏的敏感数据。附图说明一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。图1是本专利技术基于机器学习的脱敏方法的一个实施例的流程图;图2是本专利技术基于机器学习的脱敏方法的一个实施例中模型训练的流程图;图3是本专利技术基于机器学习的脱敏方法的另一个实施例的流程图;图4是本专利技术基于机器学习的脱敏方法的另一个实施例中模型训练的流程图;图5是本专利技术基于机器学习的脱敏方法的一个实施例中分词处理的流程图;图6是本专利技术基于机器学习的脱敏装置的一个实施例的结构框图;图7是本专利技术基于机器学习的脱敏装置的另一个实施例的结构框图;图8是本专利技术脱敏设备的一个实施例的硬件结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,如果不冲突,本专利技术实施例中的各个特征可以相互结合,均在本专利技术的保护范围之内。另外,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。再者,本专利技术所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定,仅是对功能和作用基本相同的相同项或相似项进行区分。如图1所示,本专利技术实施例提供了一种基于机器学习的脱敏方法,包括:步骤102,获取数据源,并基于所述数据源提取特征向量。数据源可以为数据库中的数据,或者为TXT文本,亦可为Execl表格中的数据等。特征向量为能够体现数据源特征的向量,提取特征向量的目的是提取出数据源的特征来标示该特定的数据。步骤104,使用预设的基于神经网络的人工智能模型对所述特征向量进行分析,获得分析结果。由于神经网络所能识别的输入数据是向量,因此提取特征向量后,将提取的特征向量输入基于神经网络的人工智能模型中进行分析,得到分析结果。在另一些实施例中,也可内置敏感数据字典、用户自定义敏感数据特征以及基于神经网络的人工智能模型对所述输入的特征向量进行分析本文档来自技高网...

【技术保护点】
1.一种基于机器学习的脱敏方法,其特征在于,包括以下步骤:获取数据源,并基于所述数据源提取特征向量;使用预设的基于神经网络的人工智能模型对所述特征向量进行分析,获得分析结果;根据所述分析结果对所述数据源进行脱敏,获得脱敏后的数据。

【技术特征摘要】
1.一种基于机器学习的脱敏方法,其特征在于,包括以下步骤:获取数据源,并基于所述数据源提取特征向量;使用预设的基于神经网络的人工智能模型对所述特征向量进行分析,获得分析结果;根据所述分析结果对所述数据源进行脱敏,获得脱敏后的数据。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取基于神经网络的人工智能模型;所述获取基于神经网络的人工智能模型,包括:获取样本数据及对应的标签,并基于所述样本数据提取样本特征向量;将所述样本特征向量及对应的标签基于BiLSTM神经网络模型进行迭代训练,获取所述基于BiLSTM神经网络模型的各个参数;基于所述基于BiLSTM神经网络模型提取特征信息;将所述特征信息导入条件随机场得到基于神经网络的人工智能模型。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:使用预设的基于决策树的人工智能模型对所述脱敏后的数据进行分析;根据分析结果对所述脱敏后的数据进行再次脱敏。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:获取基于决策树的人工智能模型;所述基于决策树的人工智能模型,包括:获取训练数据及对应的标签,并基于所述训练数据提取训练特征向量;将所述训练特征向量及对应的标签基于决策树的人工智能模型进行迭代训练,获取所述基于决策树的人工智能模型的各个参数。5.根据权利要求2所述的方法,其特征在于,所述基于所述数据源提取特征向量,包括:使用word2vec将所述数据源转换为数学向量;所述基于所述样本数据提取样本特征向量,包括:使用word2vec将所述样本数据转换为数学向量。6.根...

【专利技术属性】
技术研发人员:王祎鑫刘华春
申请(专利权)人:深圳昂楷科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1