基于关联规则的社交网络用户信息填充方法技术

技术编号：24853774 阅读：44 留言：0更新日期：2020-07-10 19:07

基于关联规则的社交网络用户信息填充方法，涉及网络技术领域。本发明专利技术是为了解决社交网络用户信息填充的准确性差的问题。本发明专利技术基于SCRAPY爬虫框架获取用户的在网络社交平台上的个人信息和每个用户在网络社交平台上发布的信息；利用ICTCLAS系统对每个有效用户在社交网络平台发布的信息进行分词，并提取每个有效用户的关键词；利用FP‑Growth算法对有效用户的关键词进行关联，利用强关联规则集合将信息缺失的用户与无信息缺失的用户进行不同关键词关联，利用与其关联的无信息缺失用户的信息对信息缺失用户缺失的信息进行填充，或者使用补充算法KNNI对信息缺失用户缺失的信息进行填充。本发明专利技术适用于网络平台用户信息填充使用。

全部详细技术资料下载

【技术实现步骤摘要】
基于关联规则的社交网络用户信息填充方法
本专利技术涉及网络

技术介绍
近年来，特别是因特网和社交网络的显著进步和普及，社交网络在国民日常生活中的重要应用地位日渐凸显。无论是明星大腕还是普通的网民，都在使用这些社交网络获取有用消息和信息，发布其个人状态以及与其他用户通信。这使得其中可用于分析与研究的数据在不断累积。获取数据的能力与技术手段使得社交网络分析(SNA)和数据挖掘(DM)技术可以很好地应用于改善商业进程，并为用户开发具有针对性的服务。在社交网络数据的基础上，现在已完成了以下任务：建立推荐系统，客户互动机制，产品和服务的广告和推广，专家招聘与检索，趋势监控等。在中国，新浪微博目前是许多社交网络应用程序中用户数量最多的。随着微博用户数量的迅猛增长，微博用户的个人信息显得尤为重要，充满商业价值。然而，研究发现显示，所有类型的社交网络分析中最常见的问题之一是数据质量差，这使他们的分析复杂化。这其中，数据质量差主要是数据在获取或处理过程中的缺失和数据来源本身就不完整导致的。影响数据质量的主要因素是社交网络中的数据很容易在获取和存储阶段产生缺失(任何字段都可能缺失，例如“年龄/出生日期”，“性别”，“婚姻状况”)。由于社交网络本身的复杂性，数据缺失是很容易产生且难以避免的。目前缺失数据的填充方法可以分为两个大类：统计型方法和机器学习型方法。缺失数据填充是基于使用一些统计或机器学习技术从所选观察数据中产生估计来代替所缺失的值。最简单的统计方法分别是连续和离散变量的均值和模式估算。此外，它们通常用作...

【技术保护点】
1.基于关联规则的社交网络用户信息填充方法，其特征在于，具体包括：/n步骤一、基于SCRAPY爬虫框架获取用户的在网络社交平台上的个人信息和每个用户在网络社交平台上发布的信息；/n步骤二、对用户在网络社交平台上的个人信息及其发布信息进行数据筛选处理，获取有效用户及其有效发布信息，利用ICTCLAS系统对每个有效用户在社交网络平台发布的信息进行分词，并提取每个有效用户的关键词；/n步骤三、利用FP-Growth算法对有效用户的关键词进行关联，获取强关联规则集合；/n步骤四、利用强关联规则集合，对信息缺失用户进行不同关键词强关联操作，获得关联结果，若关联结果不为0，执行步骤五，若关联结果为0，执行步骤六；/n步骤五、将关联结果中，剔除与信息缺失用户具有相同信息缺失位的用户，获得有效关联结果，在有效关联结果中选择出现次数最多的用户，利用出现次数最多的用户的信息对缺失用户信息缺失位进行填充，执行步骤七；/n步骤六、使用补充算法KNNI对信息缺失用户信息缺失为进行填充，执行步骤七；/n步骤七、利用机器学习模型对信息缺失用户填充的信息进行预测回归，实现对填充信息进行纠正，完成社交网络用户信息填充。/n...

【技术特征摘要】
1.基于关联规则的社交网络用户信息填充方法，其特征在于，具体包括：
步骤一、基于SCRAPY爬虫框架获取用户的在网络社交平台上的个人信息和每个用户在网络社交平台上发布的信息；
步骤二、对用户在网络社交平台上的个人信息及其发布信息进行数据筛选处理，获取有效用户及其有效发布信息，利用ICTCLAS系统对每个有效用户在社交网络平台发布的信息进行分词，并提取每个有效用户的关键词；
步骤三、利用FP-Growth算法对有效用户的关键词进行关联，获取强关联规则集合；
步骤四、利用强关联规则集合，对信息缺失用户进行不同关键词强关联操作，获得关联结果，若关联结果不为0，执行步骤五，若关联结果为0，执行步骤六；
步骤五、将关联结果中，剔除与信息缺失用户具有相同信息缺失位的用户，获得有效关联结果，在有效关联结果中选择出现次数最多的用户，利用出现次数最多的用户的信息对缺失用户信息缺失位进行填充，执行步骤七；
步骤六、使用补充算法KNNI对信息缺失用户信息缺失为进行填充，执行步骤七；
步骤七、利用机器学习模型对信息缺失用户填充的信息进行预测回归，实现对填充信息进行纠正，完成社交网络用户信息填充。

2.根据权利要求1所述基于关联规则的社交网络用户信息填充方法，其特征在...

【专利技术属性】
技术研发人员：王宏志，姜楠，王春楠，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：黑龙;23

全部详细技术资料下载我是这个专利的主人