【技术实现步骤摘要】
一种基于互信息和改进遗传算法的用户属性特征选择方法
[0001]本专利技术属于机器学习领域,具体涉及一种基于互信息和改进遗传算法的用户属性特征选择方法。
技术介绍
[0002]随着手机网民规模的逐年扩大,移动互联网已经广泛渗入到人们日常生活的方方面面,改变了人们的生活、社交和娱乐等方式,智能手机的不断普及以及手机网民规模的扩大,导致智能手机的应用市场也呈现爆炸式増长。
[0003]智能手机与个人紧密关联,用户在长期使用智能手机的过程中,通过应用商店安装不同的APP来获取需要的服务,手机几乎承载了一个人全部的行为和偏好;通过用户对不同App的安装以及使用数据,能够反映用户的性别,年龄等基本属性、以及生活方式和兴趣偏好等个人信息;用户属性的深入挖掘对个体用户及群体用户的研究均具有较大的意义。
[0004]随着智能手机的不断发展,手机中存储的数据集规模和数据维度也在逐渐扩大。海量的数据和特征维度可能存在特征冗余等情况;特征筛选作为用户属性预测的第一步,可以在海量的特征中寻找可解释性较强、与目标变量相关度较高的特征, ...
【技术保护点】
【技术特征摘要】
1.一种基于互信息和改进遗传算法的用户属性特征选择方法,其特征在于,包括以下步骤:步骤一、海量采集手机用户,对各用户的性别及年龄段设为标签sex_age;同时,根据用户使用的APP统计用户特征,将每个标签下的用户特征构成原始特征集;每个标签sex_age都对应M个特征,特征集合为F={f1,f2,
…
,f
i
,....f
M
};最终所有标签的所有特征集合构成了原始特征集;步骤二、利用互信息算法计算每个标签和对应的各个特征之间的互信息;步骤三、将每个标签对应的所有互信息,按照由大到小的顺序对各特征进行排序,并将互信息大于阈值Q对应的特征筛选到特征集F'中,作为遗传算法的初始种群;同时,在初始种群中生成若干随机特征,并给每个特征赋值;阈值Q根据实际需求人为设定;在初始种群中,互信息值大于阈值Q的特征均设为1,随机生成的特征随机设为0或1;步骤四、采用二进制编码方式对初始种群中的特征进行编码,形成种群的个体;初始种群中的每个个体是由L个特征对应的0或1组成的二进制字符串,L为候选特征的总数量;针对每个个体,依次判断当前第i位的值是否为0,如果是,表示不选择第i位对应的特征f
i
,否则,值为1表示选择特征f
i
;步骤五、根据基于类内类间距离的适应度函数,计算初始种群中每个个体的适应度;步骤六、利用轮盘赌的比例选择法,对种群中的每个个体按照适应度值计算选择概率,将选中的个体进入下一代种群;步骤七、对于选中进入下一代进行遗传操作的个体,根据自适应的交叉、变异算子进行交叉、变异操作,产生新一代种群;令交叉概率和变异概率分别记为p
c
和p
m
,计算公式为:,计算公式为:其中,p
c1
、p
c2
、p
m1
和p
m2
为常数,f
max
表示当前...
【专利技术属性】
技术研发人员:曹倩,左敏,姜同强,麻春蕊,王曼,
申请(专利权)人:北京工商大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。