一种基于互信息和改进遗传算法的用户属性特征选择方法技术

技术编号:28711312 阅读:20 留言:0更新日期:2021-06-06 00:15
本发明专利技术公开了一种基于互信息和改进遗传算法的用户属性特征选择方法,属于机器学习领域,具体包括:首先,对各手机用户设置标签并统计用户特征,对每个标签和对应的各个特征之间计算互信息;接着,按照互信息由大到小的顺序进行排序,并筛选互信息大于阈值的特征到初始种群中;同时,在初始种群中随机生成若干特征并赋值;然后,对特征进行编码形成个体并计算每个个体的适应度;利用轮盘赌的比例选择法,按照适应度值计算个体的选择概率,对于选中进入下一代遗传操作的个体,进行交叉、变异操作,产生新一代种群;重复计算新一代种群中个体的适应度,直至终止输出最优特征子集;本发明专利技术快速得到最优特征子集,删除了部分冗余特征,分类效果明显。类效果明显。类效果明显。

【技术实现步骤摘要】
一种基于互信息和改进遗传算法的用户属性特征选择方法


[0001]本专利技术属于机器学习领域,具体涉及一种基于互信息和改进遗传算法的用户属性特征选择方法。

技术介绍

[0002]随着手机网民规模的逐年扩大,移动互联网已经广泛渗入到人们日常生活的方方面面,改变了人们的生活、社交和娱乐等方式,智能手机的不断普及以及手机网民规模的扩大,导致智能手机的应用市场也呈现爆炸式増长。
[0003]智能手机与个人紧密关联,用户在长期使用智能手机的过程中,通过应用商店安装不同的APP来获取需要的服务,手机几乎承载了一个人全部的行为和偏好;通过用户对不同App的安装以及使用数据,能够反映用户的性别,年龄等基本属性、以及生活方式和兴趣偏好等个人信息;用户属性的深入挖掘对个体用户及群体用户的研究均具有较大的意义。
[0004]随着智能手机的不断发展,手机中存储的数据集规模和数据维度也在逐渐扩大。海量的数据和特征维度可能存在特征冗余等情况;特征筛选作为用户属性预测的第一步,可以在海量的特征中寻找可解释性较强、与目标变量相关度较高的特征,并剔除无关的冗余特征,从而降低用户属性预测模型的训练时间成本,也有助于提高算法的准确率。
[0005]针对特征选择问题,目前的已有研究多集中于考虑单个特征的重要性,使得考量过程往往过于简化,忽略了不同特征之间的关联性,以及关联性对特征重要度的影响,进而降低了大数据特征选择的整体性能。

技术实现思路

[0006]为了对用户属性进行精准预测,高效实现特征选择,本专利技术提出了一种基于互信息和改进遗传算法的用户属性特征选择方法,通过定义各手机用户的性别及年龄段为标签;同时定义手机中各APP的App安装特征、App使用特征、用户App使用偏好特征、Applist2vec特征为原始特征;根据各标签及原始特征,通过互信息计算特征与标签的相关性,并将筛选后的特征作为遗传算法初始种群的一部分;另一方面,利用类内类间距离构造遗传算法的适应度函数,改进遗传算法进行特征选择,从而为后续的用户属性预测提取出有效的、具有代表性的特征,改善分类器性能,提高分类准确率。
[0007]具体步骤如下:
[0008]步骤一、海量采集手机用户,对各手机用户的性别及年龄段设为标签sex_age;
[0009]sex表示用户性别,取值1、2分别表示男和女;age表示用户年龄段,取值0

10分别对应用户不同的年龄段;
[0010]步骤二、同时,将每个用户的App安装特征、App使用特征、用户App使用偏好特征以及Applist2vec特征为原始特征,将每个标签下的用户特征构成原始特征集;
[0011]每个标签sex_age都对应M个特征,特征集合为F={f1,f2,

,f
i
,....f
M
};最终所有标签的所有特征集合构成了原始特征集。
[0012]步骤三、利用互信息算法计算每个标签和对应的各个特征之间的互信息;
[0013]针对离散随机变量标签X,以及该标签X对应的某个特征Y,互信息I(X;Y)为:
[0014][0015]H(X)表示变量标签X的熵,S为变量标签X的取值范围;p(x)是变量标签X的概率密度分布函数;
[0016]H(X|Y)表示条件熵,用来对已知变量Y后X取值的不确定性进行度量,表示为:
[0017][0018]p(x,y)是变量标签X和变量标签Y的联合概率密度分布函数;T为变量标签Y的取值范围;p(x|y)代表当变量Y取值为y时,X取值为x的概率;
[0019]由此,得到标签X下的M个特征对应的M个互信息结果。
[0020]步骤四、将每个标签对应的所有互信息,按照由大到小的顺序对各特征进行排序,并将互信息大于阈值Q对应的特征筛选到特征集F'中,作为遗传算法的初始种群;同时,在初始种群中生成若干随机特征,并给每个特征赋值。
[0021]阈值Q根据实际需求人为设定;
[0022]在初始种群中,互信息值大于阈值Q的特征均设为1,随机生成的特征随机设为0或1。
[0023]步骤五、采用二进制编码方式对初始种群中的特征进行编码,形成种群的个体;
[0024]初始种群中的每个个体是由L个特征对应的0或1组成的二进制字符串,L为候选特征的总数量;
[0025]针对每个个体,依次判断当前第i位的值是否为0,如果是,表示不选择第i位对应的特征f
i
,否则,值为1表示选择特征f
i

[0026]步骤六、根据基于类内类间距离的适应度函数,计算初始种群中每个个体的适应度;
[0027]步骤七、利用轮盘赌的比例选择法,对种群中的每个个体按照适应度值计算选择概率,将选中的个体进入下一代种群;
[0028]每个个体被选中的概率与其适应度大小成正比,针对个体x
i
进入到下一代进行遗传操作的概率p(x
i
)如下式:
[0029][0030]其中n为个体的数量,个体x
i
的适应度为f(x
i
);
[0031]步骤八、对于选中进入下一代进行遗传操作的个体,根据自适应的交叉、变异算子进行交叉、变异操作,产生新一代种群;
[0032]令交叉概率和变异概率分别记为p
c
和p
m
,计算公式为:
[0033][0034][0035]其中,p
c1
、p
c2
、p
m1
和p
m2
为常数,f
max
表示当前代种群中所有个体中的最大适应度值,f
avg
表示每一代中所有个体的适应度平均值,f

表示要进行交叉操作的双亲之间较大的适应度值,f表示要进行变异操作的个体的适应度值。
[0036]步骤九、计算新一代种群中每个个体的适应度,并判断新一代种群是否达到终止条件,如果是,则输出最优特征子集;否则,返回步骤七。
[0037]最优特征子集是指,新一代种群中每个个体中值为1的特征组成的集合。
[0038]终止条件为:适应度最优解连续5次保持不变或迭代次数达到最大值。
[0039]本专利技术的有益效果为:
[0040]一种基于互信息和改进遗传算法的用户属性的特征选择方法,利用互信息对特征进行初步筛选,删除互信息值较低即与标签相关性较低的特征,保留互信息值较高的特征;选用类内类间距离为遗传算法的适应度函数、采取自适应的遗传算子改进遗传算法,进行特征选择。本方法可以快速得到最优特征子集,删除了部分冗余特征,分类效果得到明显提升。
附图说明
[0041]图1是本专利技术一种基于互信息和改进遗传算法的用户属性的特征选择方法原理图;
[0042]图2是本专利技术一种基于互信息和改进遗传算法的用户属性的特征选择方法流程图;...

【技术保护点】

【技术特征摘要】
1.一种基于互信息和改进遗传算法的用户属性特征选择方法,其特征在于,包括以下步骤:步骤一、海量采集手机用户,对各用户的性别及年龄段设为标签sex_age;同时,根据用户使用的APP统计用户特征,将每个标签下的用户特征构成原始特征集;每个标签sex_age都对应M个特征,特征集合为F={f1,f2,

,f
i
,....f
M
};最终所有标签的所有特征集合构成了原始特征集;步骤二、利用互信息算法计算每个标签和对应的各个特征之间的互信息;步骤三、将每个标签对应的所有互信息,按照由大到小的顺序对各特征进行排序,并将互信息大于阈值Q对应的特征筛选到特征集F'中,作为遗传算法的初始种群;同时,在初始种群中生成若干随机特征,并给每个特征赋值;阈值Q根据实际需求人为设定;在初始种群中,互信息值大于阈值Q的特征均设为1,随机生成的特征随机设为0或1;步骤四、采用二进制编码方式对初始种群中的特征进行编码,形成种群的个体;初始种群中的每个个体是由L个特征对应的0或1组成的二进制字符串,L为候选特征的总数量;针对每个个体,依次判断当前第i位的值是否为0,如果是,表示不选择第i位对应的特征f
i
,否则,值为1表示选择特征f
i
;步骤五、根据基于类内类间距离的适应度函数,计算初始种群中每个个体的适应度;步骤六、利用轮盘赌的比例选择法,对种群中的每个个体按照适应度值计算选择概率,将选中的个体进入下一代种群;步骤七、对于选中进入下一代进行遗传操作的个体,根据自适应的交叉、变异算子进行交叉、变异操作,产生新一代种群;令交叉概率和变异概率分别记为p
c
和p
m
,计算公式为:,计算公式为:其中,p
c1
、p
c2
、p
m1
和p
m2
为常数,f
max
表示当前...

【专利技术属性】
技术研发人员:曹倩左敏姜同强麻春蕊王曼
申请(专利权)人:北京工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1