一种面向微博的用户信息采集方法、信息数据处理终端技术

技术编号：19140290 阅读：26 留言：0更新日期：2018-10-13 08:41

本发明专利技术属于数据识别及数据表示技术领域，公开了一种面向微博的用户信息采集方法、信息数据处理终端，所述面向微博的用户信息采集方法从任意一个微博用户的URL进入，获取与用户有关的其他用户，并记录各用户的URL，通过聚类把相似微博用户的信息获取出来，然后用户信息评价优先获取较高得分的用户信息，依次进行完成所有微博用户信息的提取。本发明专利技术采用优先分层获取原则，得分较高的用户优先获取，然后把不同层级的用户依次获取，该方法获取速度较快，而且获取效率较高，获取信息较为全面。本发明专利技术可以快速的获取不同用户的相同信息，以便研究信息的价值。根据聚类特点，可以快速的对某些类别的用户信息进行信息汇总，以便扩大信息总量。

A user oriented information acquisition method and information data processing terminal for micro-blog

The invention belongs to the technical field of data recognition and data representation, and discloses a user information acquisition method for microblogging and an information data processing terminal. The user information acquisition method for microblogging enters from the URL of any microblogging user, obtains other users related to the user, and records the URL of each user. After clustering, the information of similar micro-blog users is obtained, and then the user information evaluation gives priority to the user information with higher scores, and all the micro-blog users'information is extracted in turn. The invention adopts the principle of priority hierarchical acquisition, and the user with higher score obtains the information first, and then obtains the users with different levels in turn. The method obtains faster acquisition speed, higher acquisition efficiency and more comprehensive information. The invention can quickly acquire the same information of different users, so as to study the value of information. According to the clustering characteristics, it can quickly aggregate the information of certain categories of users in order to expand the total amount of information.

全部详细技术资料下载

【技术实现步骤摘要】
一种面向微博的用户信息采集方法、信息数据处理终端
本专利技术属于数据识别及数据表示
，尤其涉及一种面向微博的用户信息采集方法、信息数据处理终端。
技术介绍
目前，业内常用的现有技术是这样的：微博用户信息主要指微博的用户名，即进入微博个人主页后左上角的微博昵称。在微博平台上，通过搜索微博用户名便可以获取该微博的博主信息，因此提取微博用户信息十分重要。微博用户与用户之间通过关注、粉丝建立联系，实现信息交流互通，用户注册完信息后，可随时随地更新用户信息，可以转发分享他人信息。微博对人与人之间的信息交流做出了很大贡献，微博内容简介，主题鲜明，交互性较强，因此微博受到了越来越多用户的青睐。微博其使用用户数量庞大，信息更新速度较快，信息传播速度较快，用户想要根据自己的需求进行选择会花费大量的时间和精力去筛选。研究表明，微博重大事件疯狂传播时，各微博用户会快速地向各大网络平台转移，通过获取微博用户信息，便可很快知道一些重大事件的发生，因此提取微博用户信息对更快获取重大事件有重要意义。从理论研究的角度来看，微博用户之间有着密切的联系，因此从一个微博用户出发，把与该微博有关的其他微博用户信息一一获取出来，再根据已经获取的微博用户进行下一层微博用户获取，最后把所有微博用户获取出来.由于微博注册用户庞大，截止2017年9月，微博月活跃用户达3.6亿与2016年同期相比增长27％。目前对于微博用户信息数据获取过程的研究深度不够，而且微博每天更新速度较快，现有的微博信息获取技术并不能对微博用户信息较好的做出选择性获取，因此在对微博用户获取研究方面存在较大的改进空间。通过本方法...

【技术保护点】
1.一种面向微博的用户信息采集方法，其特征在于，所述面向微博的用户信息采集方法从任意一个微博用户的URL进入，获取与用户有关的其他用户，并记录各用户的URL，通过聚类把相似微博用户的信息获取出来，然后用户信息评价优先获取较高得分的用户信息，依次进行完成所有微博用户信息的提取。

【技术特征摘要】
1.一种面向微博的用户信息采集方法，其特征在于，所述面向微博的用户信息采集方法从任意一个微博用户的URL进入，获取与用户有关的其他用户，并记录各用户的URL，通过聚类把相似微博用户的信息获取出来，然后用户信息评价优先获取较高得分的用户信息，依次进行完成所有微博用户信息的提取。2.如权利要求1所述的面向微博的用户信息采集方法，其特征在于，所述面向微博的用户信息采集方法包括以下步骤：步骤一，通过正则表达式获取<aclass＝到<a/>之间的文字及超级链接；步骤二，再次使用正则表达式获取<aclass＝到</span>之间的文字及超级链接；步骤三，将获取的微博用户信息，粉丝，关注及各自对应的链接存入字典里；步骤四，计算获取用户信息之间的相似性，相似性较高的在下次优先获取；步骤五，对已经获取的用户信息进行标号，用聚类的方法进行重复率检测；步骤六，逐步循环直到把所有的微博用户全部获取出来。3.如权利要求2所述的面向微博的用户信息采集方法，其特征在于，计算任意两个微博用户X与Y之间的相似性：I(X,Y)为第X个微博用户与第Y个微博用户之间的相似程度，I(X,Y)值...

【专利技术属性】
技术研发人员：詹咏松，程国艮，
申请(专利权)人：中译语通科技股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人