一种对用于识别敏感信息的特征进行选择的方法及装置制造方法及图纸

技术编号:36124181 阅读:26 留言:0更新日期:2022-12-28 14:30
本申请公开一种对用于识别敏感信息的特征进行选择的方法及装置,可以将数据具有的特征类型进行组合得到多个组合,将每个组合看作一个粒子,获得一个粒子群,初始化粒子群并设置为当前粒子群,初始化迭代次数为1,根据粒子不确定性值从粒子群提取部分粒子,计算部分粒子中各粒子的分类准确率,根据各粒子的分类准确率和不确定性取值确定各粒子的历史最佳基础变量和全局历史最佳基础变量,判断迭代次数是否小于迭代终止次数,若是,则对当前粒子群进行更新,迭代次数加1,返回确定当前粒子群中每个粒子不确定性取值的步骤,若否,基于最后一次迭代确定的全局历史最佳基础变量确定用于识别敏感信息的特征类型,提高了敏感信息的识别效果。识别效果。识别效果。

【技术实现步骤摘要】
一种对用于识别敏感信息的特征进行选择的方法及装置


[0001]本申请涉及互联网
,更具体地说,涉及一种对用于识别敏感信息的特征进行选择的方法及装置。

技术介绍

[0002]包括银行信息在内的多种信息中都可能存在着敏感信息,对于敏感信息的识别是十分重要的一项研究。当前,一般会通过信息具有的多种特征来识别敏感信息。但是由于信息具有的特征类型太多,因此如果使用全部的特征类型来识别敏感信息必然导致计算量太大,且误差较高。
[0003]现有技术下,都是通过人工的方式,从全部的特征类型中选择部分特征类型作为用于识别敏感信息的特征。人工选择的特征的准确率较低,使得后续敏感信息的识别的准确率也较低。

技术实现思路

[0004]有鉴于此,本申请提供了一种对用于识别敏感信息的特征进行选择的方法及装置,用于解决敏感信息的识别的准确率低的问题。
[0005]为了实现上述目的,现提出的方案如下:
[0006]一种对用于识别敏感信息的特征进行选择的方法,所述方法包括:
[0007]获得多条待识别的数据;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对用于识别敏感信息的特征进行选择的方法,其特征在于,所述方法包括:获得多条待识别的数据;获得所述多条待识别的数据所具有的各特征类型;将获得的各特征类型进行组合,得到多个特征类型组合;将每一个特征类型组合确定为一个粒子,获得包括多个粒子的粒子群;初始化所述粒子群中各粒子的基础变量并将初始化的所述粒子群确定为当前粒子群,所述基础变量包括:速度和位置,将迭代次数初始化为1;确定当前粒子群中每个粒子的不确定性取值;根据不确定性取值,从当前粒子群中提取部分粒子;分别计算提取的各粒子的分类准确率;基于提取的各粒子的分类准确率和不确定性取值,分别确定提取的每一个粒子自身的粒子历史最佳基础变量;基于提取的各粒子的分类准确率和不确定性取值,确定全局历史最佳基础变量;判断迭代次数是否小于迭代终止次数,若是,则基于本次迭代确定的各粒子历史最佳基础变量及全局历史最佳基础变量对当前粒子群的基础变量进行更新,将所述迭代次数增大1,返回执行所述确定当前粒子群中每个粒子的不确定性取值的步骤;若否,则基于最后一次迭代确定的全局历史最佳基础变量确定用于识别敏感信息的特征类型。2.根据权利要求1所述的方法,其特征在于,所述确定当前粒子群中每个粒子的不确定性取值,包括:使用归一化的对称不确定公式:使用归一化的对称不确定公式:使用归一化的对称不确定公式:确定当前粒子群中每个粒子的不确定性取值,其中,SU为对称不确性,X和Y分别表示一个特征类型,SU(X,Y)表示特征类型X和特征类型Y的对称不确性;x为特征类型X的取值,y为特征类型Y的取值;I(X;Y)为特征类型X和特征类型Y之间的互信息;H(X)为特征类型X的熵函数,H(Y)为特征类型Y的熵函数,p(x,y)表示x和y的联合分布律,p(x)表示x的边缘分布律,p(y)表示y的边缘分布律;q(x)表示特征类型X的取值为x的概率。3.根据权利要求1所述的方法,其特征在于,所述根据不确定性取值,从当前粒子群中提取部分粒子,包括:从当前粒子群中提取不确定性取值最高的N个粒子,所述N为自然数,且N=M
×
α,所述M
为当前粒子群中的粒子总数,所述α为小于1的预设百分数。4.根据权利要求1所述的方法,其特征在于,所述分别计算提取的各粒子的分类准确率,包括:通过SVM算法计算提取的各粒子的分类准确率。5.根据权利要求1所述的方法,其特征在于,所述基于最后一次迭代确定的全局历史最佳基础变量确定用于识别敏感信息的特征类型,包括:...

【专利技术属性】
技术研发人员:潘禹瑶
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1