基于关联规则的社交网络用户信息填充方法技术

技术编号:24853774 阅读:44 留言:0更新日期:2020-07-10 19:07
基于关联规则的社交网络用户信息填充方法,涉及网络技术领域。本发明专利技术是为了解决社交网络用户信息填充的准确性差的问题。本发明专利技术基于SCRAPY爬虫框架获取用户的在网络社交平台上的个人信息和每个用户在网络社交平台上发布的信息;利用ICTCLAS系统对每个有效用户在社交网络平台发布的信息进行分词,并提取每个有效用户的关键词;利用FP‑Growth算法对有效用户的关键词进行关联,利用强关联规则集合将信息缺失的用户与无信息缺失的用户进行不同关键词关联,利用与其关联的无信息缺失用户的信息对信息缺失用户缺失的信息进行填充,或者使用补充算法KNNI对信息缺失用户缺失的信息进行填充。本发明专利技术适用于网络平台用户信息填充使用。

【技术实现步骤摘要】
基于关联规则的社交网络用户信息填充方法
本专利技术涉及网络

技术介绍
近年来,特别是因特网和社交网络的显著进步和普及,社交网络在国民日常生活中的重要应用地位日渐凸显。无论是明星大腕还是普通的网民,都在使用这些社交网络获取有用消息和信息,发布其个人状态以及与其他用户通信。这使得其中可用于分析与研究的数据在不断累积。获取数据的能力与技术手段使得社交网络分析(SNA)和数据挖掘(DM)技术可以很好地应用于改善商业进程,并为用户开发具有针对性的服务。在社交网络数据的基础上,现在已完成了以下任务:建立推荐系统,客户互动机制,产品和服务的广告和推广,专家招聘与检索,趋势监控等。在中国,新浪微博目前是许多社交网络应用程序中用户数量最多的。随着微博用户数量的迅猛增长,微博用户的个人信息显得尤为重要,充满商业价值。然而,研究发现显示,所有类型的社交网络分析中最常见的问题之一是数据质量差,这使他们的分析复杂化。这其中,数据质量差主要是数据在获取或处理过程中的缺失和数据来源本身就不完整导致的。影响数据质量的主要因素是社交网络中的数据很容易在获取和存储阶段产生缺失(任何字段都可能缺失,例如“年龄/出生日期”,“性别”,“婚姻状况”)。由于社交网络本身的复杂性,数据缺失是很容易产生且难以避免的。目前缺失数据的填充方法可以分为两个大类:统计型方法和机器学习型方法。缺失数据填充是基于使用一些统计或机器学习技术从所选观察数据中产生估计来代替所缺失的值。最简单的统计方法分别是连续和离散变量的均值和模式估算。此外,它们通常用作基线插补方法。在机器学习方法中,缺失值填充被称为模式分类任务,其中缺失属性被视为分类模型的目标输出,其余完整属性是用于训练和测试模型的输入特征。现有的数据填充算法都是通过缺失数据集本身,挖掘其中的信息来进行数据填充,并不参考其他的信息与知识库。这对于很多特征不明显的数据集来说,处理的效果不够理想。在MarkHuisman关于社交网络简单数据填充的论文中,他研究使用一些简单的数据处理方式来处理丢失的网络数据。实验结果表明,忽略丢失的数据会对网络的结构特性产生很大的负面影响。然而,基于简单数据填充算法的缺失数据处理也具有很大的负面影响,并且简单的填充只能在少数特定情况下成功地纠正数据缺失。通过现有的资料可以发现,目前对社交网络中对缺失的用户信息数据的填充,各种算法的效果都不是特别理想。这是由于在社交网络上,用户信息数据是相对离散的,在填充过程中很难找到用户之间的特征,除非深入挖掘用户之间的关联性。
技术实现思路
本专利技术的目的是通过挖掘到缺失社交网络用户信息数据集中存在的关联性,对数据集进行填充,解决社交网络用户信息填充的准确性差的问题。本专利技术所述的基于关联规则的社交网络用户信息填充方法,具体包括:步骤一、基于SCRAPY爬虫框架获取用户的在网络社交平台上的个人信息和每个用户在网络社交平台上发布的信息;步骤二、对用户在网络社交平台上的个人信息及其发布信息进行数据筛选处理,获取有效用户及其有效发布信息,利用ICTCLAS系统对每个有效用户在社交网络平台发布的信息进行分词,并提取每个有效用户的关键词;步骤三、利用FP-Growth算法对有效用户的关键词进行关联,获取强关联规则集合;步骤四、利用强关联规则集合,对信息缺失用户进行不同关键词强关联操作,获得关联结果,若关联结果不为0,执行步骤五,若关联结果为0,执行步骤六;步骤五、将关联结果中,剔除与信息缺失用户具有相同信息缺失位的用户,获得有效关联结果,在有效关联结果中选择出现次数最多的用户,利用出现次数最多的用户的信息对缺失用户信息缺失位进行填充,执行步骤七;步骤六、使用补充算法KNNI对信息缺失用户信息缺失为进行填充,执行步骤七;步骤七、利用机器学习模型对信息缺失用户填充的信息进行预测回归,实现对填充信息进行纠正,完成社交网络用户信息填充。进一步地,步骤二中所述对用户在网络社交平台上的个人信息及其发布信息进行数据筛选处理的具体方法为:判断用户的年龄的范围是否在A1~A2之间,将年龄范围不在A1~A2之间的用户数据剔除;对年龄在A1~A2之间的信息完整的用户发布在网络社交平台上的信息进行筛选,删除特殊符合及字符小于2的信息。本专利技术中,A1为10岁,A2为100岁。进一步地,步骤七中所述利用机器学习模型对信息缺失用户填充的信息进行预测回归,实现对填充信息进行纠正的具体方法为:采用机器学习分类模型,首先使用步骤六中填充完成后的信息作为所述模型输入,对信息缺失用户信息缺失位的信息进行预测,并采用预测值与填充值进行对比,当填充值与预测值不同时,使用预测值替换填充值;替换后再次利用机器学习分类模型对信息缺失用户填充的信息进行再次预测,并判断当前的预测值与填充值是否相同,若不同,用预测值替换填充值,直至预测值与填充值相同或迭代次数达到阈值β为止,阈值所述阈值的最小值为4。本专利技术有针对性地对如社交网络这一类缺失数据进行填充,使得填充效果比很多数据填充算法如CCMVI(ClassCenterBasedMissingValueImputation,基于类中心的缺失数据填充算法),KNNI(K-NearestNeighborImputation,K临近填充算法),MICE(MultipleImputationUsingChainedEquations,基于链式方程的多重插补)等更好,本专利技术针对网络平台用户所发的关键信息,建立用户之间的关联,将这种关联应用于数据的填充中,使得数据填充的效果变好。同是本专利技术使用机器学习的模型对于填充的效果进行优化。使用一种平衡的思想,来对填充结果进行优化,得到更好的效果。本专利技术基于FP-Growth关联规则算法,通过获取到的用户信息为用户之间建立桥梁。通过这样的关联,对缺失的数据进行填充。在填充完成以后,通过多个机器学习模型,对结果进行迭代优化,获取更优填充结果。附图说明图1是本专利技术所述基于关联规则的社交网络用户信息填充方法的流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。下面结合附图和具体实施例对本专利技术作进一步说明,但不作为本专利技术的限定。具体实施方式一:下面结合图1说明本实施方式,本实施方式所述基于关联规则的社交网络用户信息填充方法,具体包括:步骤一、基于SCRAPY爬虫框架获取用户的在网络社交平台上的个人信息和每个用户在网络社交平台上发布的信息;步骤二、对用户在网络社交平台上的个人信息及其发布信息进行数据筛选处理,获取有效用户本文档来自技高网
...

【技术保护点】
1.基于关联规则的社交网络用户信息填充方法,其特征在于,具体包括:/n步骤一、基于SCRAPY爬虫框架获取用户的在网络社交平台上的个人信息和每个用户在网络社交平台上发布的信息;/n步骤二、对用户在网络社交平台上的个人信息及其发布信息进行数据筛选处理,获取有效用户及其有效发布信息,利用ICTCLAS系统对每个有效用户在社交网络平台发布的信息进行分词,并提取每个有效用户的关键词;/n步骤三、利用FP-Growth算法对有效用户的关键词进行关联,获取强关联规则集合;/n步骤四、利用强关联规则集合,对信息缺失用户进行不同关键词强关联操作,获得关联结果,若关联结果不为0,执行步骤五,若关联结果为0,执行步骤六;/n步骤五、将关联结果中,剔除与信息缺失用户具有相同信息缺失位的用户,获得有效关联结果,在有效关联结果中选择出现次数最多的用户,利用出现次数最多的用户的信息对缺失用户信息缺失位进行填充,执行步骤七;/n步骤六、使用补充算法KNNI对信息缺失用户信息缺失为进行填充,执行步骤七;/n步骤七、利用机器学习模型对信息缺失用户填充的信息进行预测回归,实现对填充信息进行纠正,完成社交网络用户信息填充。/n...

【技术特征摘要】
1.基于关联规则的社交网络用户信息填充方法,其特征在于,具体包括:
步骤一、基于SCRAPY爬虫框架获取用户的在网络社交平台上的个人信息和每个用户在网络社交平台上发布的信息;
步骤二、对用户在网络社交平台上的个人信息及其发布信息进行数据筛选处理,获取有效用户及其有效发布信息,利用ICTCLAS系统对每个有效用户在社交网络平台发布的信息进行分词,并提取每个有效用户的关键词;
步骤三、利用FP-Growth算法对有效用户的关键词进行关联,获取强关联规则集合;
步骤四、利用强关联规则集合,对信息缺失用户进行不同关键词强关联操作,获得关联结果,若关联结果不为0,执行步骤五,若关联结果为0,执行步骤六;
步骤五、将关联结果中,剔除与信息缺失用户具有相同信息缺失位的用户,获得有效关联结果,在有效关联结果中选择出现次数最多的用户,利用出现次数最多的用户的信息对缺失用户信息缺失位进行填充,执行步骤七;
步骤六、使用补充算法KNNI对信息缺失用户信息缺失为进行填充,执行步骤七;
步骤七、利用机器学习模型对信息缺失用户填充的信息进行预测回归,实现对填充信息进行纠正,完成社交网络用户信息填充。


2.根据权利要求1所述基于关联规则的社交网络用户信息填充方法,其特征在...

【专利技术属性】
技术研发人员:王宏志姜楠王春楠
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1