基于社交内容的用户分组方法技术

技术编号：14567578 阅读：117 留言：0更新日期：2017-02-06 01:11

本发明专利技术提供了一种基于社交内容的用户分组方法，该方法包括：对社交网站服务器上的用户信息和社交内容进行采集，基于所采集的内容来识别特定用户群体。本发明专利技术提出了一种基于社交内容的用户分组方法，有效提高互联网社交组群的识别准确率和时效性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大数据，特别涉及一种基于社交内容的用户分组方法。
技术介绍
随着移动互联网的发展，将生活中的社交关系迁移到了互联网上，带来了信息交换方式的变革，而且改变了传统的人际沟通方式，对社会生活的各个领域具有深远的意义。用户之间可以广泛地沟通、互动，通过撰写、中转、收藏等手段对文本数据进行操作。在社交网络中，总存在部分节点连接比较紧密，而这些节点同其他节点之间的联系则相对稀疏，由此可将这部分连接紧密的节点归为同一个群体。群体作为一种重要的社交关系属性，无形中给舆情控制以及网络监管带来了巨大的挑战。如果没有对群体关系进行充分识别识别，则无法识别群体兴趣，推荐感兴趣内容，更无法及时发现危害信息，维护良好的网络环境。
技术实现思路
为解决上述现有技术所存在的问题，本专利技术提出了一种基于社交内容的用户分组方法，包括：对社交网站服务器上的用户信息和社交内容进行采集，基于所采集的内容来识别特定用户群体。优选地，所述对社交网站服务器上的用户信息和社交内容进行采集，进一步包括：通过数据采集系统进行数据采集，其中采集的数据包括用户信息，其包括用户ID、用户名；文本数据，其包括会话ID、会话文本，以及关系数据，包括关注列表与关注者列表；所述数据采集系统通过主控线程进行权限认证、程序初始化、种子节点读取、过滤、数据库操作；所述数据获取线程借助API开放接口进行数据采集，采集过程包括接口...

【技术保护点】
一种基于社交内容的用户分组方法，其特征在于，包括：对社交网站服务器上的用户信息和社交内容进行采集，基于所采集的内容来识别特定用户群体。

【技术特征摘要】
1.一种基于社交内容的用户分组方法，其特征在于，包括：
对社交网站服务器上的用户信息和社交内容进行采集，基于所采集的内容
来识别特定用户群体。
2.根据权利要求1所述的方法，其特征在于，所述对社交网站服务器上的
用户信息和社交内容进行采集，进一步包括：
通过数据采集系统进行数据采集，其中采集的数据包括用户信息，其包括
用户ID、用户名；文本数据，其包括会话ID、会话文本，以及关系数据，包括
关注列表与关注者列表；所述数据采集系统通过主控线程进行权限认证、程序
初始化、种子节点读取、过滤、数据库操作；所述数据获取线程借助API开放
接口进行数据采集，采集过程包括接口请求、json数据解析、指针更新，最终返
回给主控线程总数据列表；采用二进制向量和一系列随机映射函数完成去冗余
计算；为抓取种子ID列表、用户ID列表、关系列表、会话ID分别添加去冗余
函数，种子列表，抓取用户列表、社交列表均以其唯一标识ID进行，而关系的
格式将两个用户的ID组合到一起，并通过前者为被关注，后者为前者的关注者
的顺序区分两者的先...

【专利技术属性】
技术研发人员：董政，吴文杰，陈露，李学生，
申请(专利权)人：成都陌云科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人