基于社交内容的用户分组方法技术

技术编号:14567578 阅读:117 留言:0更新日期:2017-02-06 01:11
本发明专利技术提供了一种基于社交内容的用户分组方法,该方法包括:对社交网站服务器上的用户信息和社交内容进行采集,基于所采集的内容来识别特定用户群体。本发明专利技术提出了一种基于社交内容的用户分组方法,有效提高互联网社交组群的识别准确率和时效性。

【技术实现步骤摘要】

本专利技术涉及大数据,特别涉及一种基于社交内容的用户分组方法
技术介绍
随着移动互联网的发展,将生活中的社交关系迁移到了互联网上,带来了信息交换方式的变革,而且改变了传统的人际沟通方式,对社会生活的各个领域具有深远的意义。用户之间可以广泛地沟通、互动,通过撰写、中转、收藏等手段对文本数据进行操作。在社交网络中,总存在部分节点连接比较紧密,而这些节点同其他节点之间的联系则相对稀疏,由此可将这部分连接紧密的节点归为同一个群体。群体作为一种重要的社交关系属性,无形中给舆情控制以及网络监管带来了巨大的挑战。如果没有对群体关系进行充分识别识别,则无法识别群体兴趣,推荐感兴趣内容,更无法及时发现危害信息,维护良好的网络环境。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了一种基于社交内容的用户分组方法,包括:对社交网站服务器上的用户信息和社交内容进行采集,基于所采集的内容来识别特定用户群体。优选地,所述对社交网站服务器上的用户信息和社交内容进行采集,进一步包括:通过数据采集系统进行数据采集,其中采集的数据包括用户信息,其包括用户ID、用户名;文本数据,其包括会话ID、会话文本,以及关系数据,包括关注列表与关注者列表;所述数据采集系统通过主控线程进行权限认证、程序初始化、种子节点读取、过滤、数据库操作;所述数据获取线程借助API开放接口进行数据采集,采集过程包括接口请求、json数据解析、指针更新,最终返回给主控线程总数据列表;采用二进制向量和一系列随机映射函数完成去冗余计算;为抓取种子ID列表、用户ID列表、关系列表、会话ID分别添加去冗余函数,种子列表,抓取用户列表、社交列表均以其唯一标识ID进行,而关系的格式将两个用户的ID组合到一起,并通过前者为被关注,后者为前者的关注者的顺序区分两者的先后顺序;提取种子ID时,多线程对数据库的操作添加互斥锁;为每个线程分配抓取任务,为每个线程令牌资源库进行区分式排列组合;并为每个线程单独设置一个断点文件,记录抓取的位置;将数据库连接、关闭、查询、增加、删除操作进行统一管理,抓取对象的ID首先由人工方式输入至文件,每次开始抓取任务之前都加载一遍优先级文件;在分任务处理中在抓取对象上,为每个线程制定特定的抓取任务,从用户信息获取、文本获取、关系获取中选取的一个或多个处理目标;通过控制线程的数量,或调整API请求后获取的数据量两种方式之一来从调节采集速度;利用数据结构对会话过程进行描述;将参与会话的用户以关系连接在一起,构建成基于单个事件的群体;最后在社交关系拓扑中采用节点衡量指标识别强关系群体中的节点,最后以树形的层级结构将该事件存储至文件;其中所述强关系群体具体定义为,如果已知群体α满足:对于群体α内的每个用户节点i,均满足i与群体α内节点构成的节点数量大于该节点与群体α外节点构成的节点数量,则群体α被称为强关系群体。本专利技术相比现有技术,具有以下优点:本专利技术提出了一种基于社交内容的用户分组方法,有效提高互联网社交组群的识别准确率和时效性。附图说明图1是根据本专利技术实施例的基于社交内容的用户分组方法的流程图。具体实施方式下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描述。结合这样的实施例描述本专利技术,但是本专利技术不限于任何实施例。本发明的范围仅由权利要求书限定,并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本专利技术。本专利技术的一方面提供了一种基于社交内容的用户分组方法。图1是根据本专利技术实施例的基于社交内容的用户分组方法流程图。为了完成对社交网络的群体分析,首先建立数据采集系统对社交网站服务器上的数据进行采集,其中数据类型包括:用户信息如用户ID、用户名、文本数据如会话ID、会话文本,以及关系数据如关注列表与关注者列表。该系统包含以下模块:用户信息获取、文本数据获取、社交关系生成、去冗余、多线程、数据存储、优先级选择、令牌批量获取。数据采集系统中的主控线程进行权限认证、程序初始化、种子节点读取、过滤、数据库操作;数据获取线程借助API开放接口进行数据采集,采集过程包括接口请求、json数据解析、指针更新,最终返回给主控线程总数据列表。在去冗余计算的选择上,本专利技术采用二进制向量和一系列随机映射函数。为抓取种子ID列表、用户ID列表、关系列表、会话ID分别添加了去冗余函数,种子列表,抓取用户列表、社交列表均以其唯一标识ID进行,而关系的格式则将两个用户的ID组合到一起,并区分两者的先后顺序,前者为被关注,后者为前者的关注者。系统在多个模块添加了相应操作:提取种子ID时,多线程对数据库的操作添加互斥锁;为每个线程分配抓取任务,如线程1只负责文本的获取;线程2获取用户个人信息;为每个线程令牌资源库进行区分式排列组合。并为每个线程单独设置一个断点文件,记录抓取的位置。数据库模块将数据库连接、关闭、查询、增加、删除操作进行统一管理,抓取对象的ID首先由人工方式输入至文件,每次开始抓取任务之前都加载一遍优先级文件。在分任务处理中在抓取对象上,为每个线程制定一套特定的抓取任务,从用户信息获取、文本获取、关系获取中选取的一个或多个处理目标。从速度的控制上系统共提出了两种调节方式,一是控制线程的数量,二是调整API请求后获取的数据量。用户个人属性可以反映出用户的特性,而这种特性恰好提供了识别群体所需的强特征。本专利技术首先通过人工方式对待识别的群体进行描述,并按照这些群体特性抽象出一组关键词列表,即群体特征词。其次,利用用户信息过滤模块对检测到的用户进行识别,发现属于该群体的用户节点。在过滤过程中采用字符串正则匹配将用户个人属性与群体特征词进行匹配,如果在用户个人属性或用户名称等文本数据中包含这些特征词,则将该用户划分至待识别的群体。用户行为过滤模块处理由社交网络中用户的主观意愿而产生的文本数据,利用以下过程计算用户与群体之间的相似度。首先建立一个基于群体特征词的N维向量空间U,具体如下表示:U=[Tl,T2,T3,...,TN]其中T代表在群体中某个特征词出现的频率向量,N表示特征词的下标。其次,利用文本分割对用户A的全部文本PA进行处理。PA=[key1,key2,...,keyN]sim(A,U)本文档来自技高网...

【技术保护点】
一种基于社交内容的用户分组方法,其特征在于,包括:对社交网站服务器上的用户信息和社交内容进行采集,基于所采集的内容来识别特定用户群体。

【技术特征摘要】
1.一种基于社交内容的用户分组方法,其特征在于,包括:
对社交网站服务器上的用户信息和社交内容进行采集,基于所采集的内容
来识别特定用户群体。
2.根据权利要求1所述的方法,其特征在于,所述对社交网站服务器上的
用户信息和社交内容进行采集,进一步包括:
通过数据采集系统进行数据采集,其中采集的数据包括用户信息,其包括
用户ID、用户名;文本数据,其包括会话ID、会话文本,以及关系数据,包括
关注列表与关注者列表;所述数据采集系统通过主控线程进行权限认证、程序
初始化、种子节点读取、过滤、数据库操作;所述数据获取线程借助API开放
接口进行数据采集,采集过程包括接口请求、json数据解析、指针更新,最终返
回给主控线程总数据列表;采用二进制向量和一系列随机映射函数完成去冗余
计算;为抓取种子ID列表、用户ID列表、关系列表、会话ID分别添加去冗余
函数,种子列表,抓取用户列表、社交列表均以其唯一标识ID进行,而关系的
格式将两个用户的ID组合到一起,并通过前者为被关注,后者为前者的关注者
的顺序区分两者的先...

【专利技术属性】
技术研发人员:董政吴文杰陈露李学生
申请(专利权)人:成都陌云科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1