一种面向微博的用户信息采集方法、信息数据处理终端技术

技术编号:19140290 阅读:26 留言:0更新日期:2018-10-13 08:41
本发明专利技术属于数据识别及数据表示技术领域,公开了一种面向微博的用户信息采集方法、信息数据处理终端,所述面向微博的用户信息采集方法从任意一个微博用户的URL进入,获取与用户有关的其他用户,并记录各用户的URL,通过聚类把相似微博用户的信息获取出来,然后用户信息评价优先获取较高得分的用户信息,依次进行完成所有微博用户信息的提取。本发明专利技术采用优先分层获取原则,得分较高的用户优先获取,然后把不同层级的用户依次获取,该方法获取速度较快,而且获取效率较高,获取信息较为全面。本发明专利技术可以快速的获取不同用户的相同信息,以便研究信息的价值。根据聚类特点,可以快速的对某些类别的用户信息进行信息汇总,以便扩大信息总量。

A user oriented information acquisition method and information data processing terminal for micro-blog

The invention belongs to the technical field of data recognition and data representation, and discloses a user information acquisition method for microblogging and an information data processing terminal. The user information acquisition method for microblogging enters from the URL of any microblogging user, obtains other users related to the user, and records the URL of each user. After clustering, the information of similar micro-blog users is obtained, and then the user information evaluation gives priority to the user information with higher scores, and all the micro-blog users'information is extracted in turn. The invention adopts the principle of priority hierarchical acquisition, and the user with higher score obtains the information first, and then obtains the users with different levels in turn. The method obtains faster acquisition speed, higher acquisition efficiency and more comprehensive information. The invention can quickly acquire the same information of different users, so as to study the value of information. According to the clustering characteristics, it can quickly aggregate the information of certain categories of users in order to expand the total amount of information.

【技术实现步骤摘要】
一种面向微博的用户信息采集方法、信息数据处理终端
本专利技术属于数据识别及数据表示
,尤其涉及一种面向微博的用户信息采集方法、信息数据处理终端。
技术介绍
目前,业内常用的现有技术是这样的:微博用户信息主要指微博的用户名,即进入微博个人主页后左上角的微博昵称。在微博平台上,通过搜索微博用户名便可以获取该微博的博主信息,因此提取微博用户信息十分重要。微博用户与用户之间通过关注、粉丝建立联系,实现信息交流互通,用户注册完信息后,可随时随地更新用户信息,可以转发分享他人信息。微博对人与人之间的信息交流做出了很大贡献,微博内容简介,主题鲜明,交互性较强,因此微博受到了越来越多用户的青睐。微博其使用用户数量庞大,信息更新速度较快,信息传播速度较快,用户想要根据自己的需求进行选择会花费大量的时间和精力去筛选。研究表明,微博重大事件疯狂传播时,各微博用户会快速地向各大网络平台转移,通过获取微博用户信息,便可很快知道一些重大事件的发生,因此提取微博用户信息对更快获取重大事件有重要意义。从理论研究的角度来看,微博用户之间有着密切的联系,因此从一个微博用户出发,把与该微博有关的其他微博用户信息一一获取出来,再根据已经获取的微博用户进行下一层微博用户获取,最后把所有微博用户获取出来.由于微博注册用户庞大,截止2017年9月,微博月活跃用户达3.6亿与2016年同期相比增长27%。目前对于微博用户信息数据获取过程的研究深度不够,而且微博每天更新速度较快,现有的微博信息获取技术并不能对微博用户信息较好的做出选择性获取,因此在对微博用户获取研究方面存在较大的改进空间。通过本方法可以对微博用户信息做选择性的获取,将相似性高的微博用户获取出来,而且对微博用户信息的获取较为全面。目前来看,对微博用户信息获取主要采用两种方法:一是针对不同类别用户(美食,新闻,娱乐)采用广度优先搜索策略,二是针对微博用户级别进行深度优先搜索策略。广度优先搜索获取速度较快,但不能将相似的微博用户信息获取出来,即获取目标不明确。深度优先搜索获取较为全面,但微博用户的网页结构比较深时,搜索时会跳不出当前搜索导致搜索中断,即获取效率较低。由于微博用户量比较大而且用户与用户之间存在着密切联系,因此可以采用最佳优先搜索策略对微博的数据进行有效获取。综上所述,现有技术存在的问题是:目前对于微博用户信息数据获取过程的研究深度不够,如获取覆盖率不高,获取目标不明确,获取效率较低。解决上述技术问题的难度和意义:随着我国正处经济发展的关键时期,信息互通及信息有效传播可以刺激居民消费,进而促进当前社会经济的迅速发展,通过获取微博用户的信息,便可以在用户和用户之间建立更多的联系。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种面向微博的用户信息采集方法、信息数据处理终端。本专利技术的不同之处在于获取策略的选择方面:将任意两个微博用户X和Y之间的相似性计算出来,进而从相似性较高的微博用户出发依次获取,直到获取所有的微博用户信息。本专利技术是这样实现的,一种面向微博的用户信息采集方法,所述面向微博的用户信息采集方法从任意一个微博用户的URL进入,获取与用户有关的其他用户,并记录各用户的URL,通过聚类把相似微博用户的信息获取出来,然后用户信息评价优先获取较高得分的用户信息,依次进行完成所有微博用户信息的提取。进一步,所述面向微博的用户信息采集方法包括以下步骤:步骤一,通过正则表达式获取<aclass=到<a/>之间的文字及超级链接;步骤二,再次使用正则表达式获取<aclass=到</span>之间的文字及超级链接;步骤三,将获取的微博用户信息,粉丝,关注及各自对应的链接存入字典里;步骤四,计算获取用户信息之间的相似性,相似性较高的在下次优先获取;步骤五,对已经获取的用户信息进行标号,用聚类的方法进行重复率检测;步骤六,逐步循环直到把所有的微博用户全部获取出来。进一步,计算任意两个微博用户X与Y之间的相似性:I(X,Y)为第X个微博用户与第Y个微博用户之间的相似程度,I(X,Y)值越高,则X与Y用户的相似性越高;P(X)=x1+x2+……+xn;xi(i=1,…,n)为第X个微博用户的信息;P(X)为第X个微博用户的信息和:P(Y)=y1+y2+……+yn;yi(i=1,…,n)为第Y个微博用户的信息;P(X,Y)为第Y个微博用户的信息和:P(X,Y)=∑(X∩Y);P(X,Y)为X,Y微博用户相同信息和,通过任意两个微博用户之间的相似性计算,实现微博用户优先获取,相似性大的则在前面获取,相似性小的,则在后面获取。进一步,用最小距离公式进行聚类处理:dmin(X,Y)=minp∈X,p′∈Y|p-p′|;p和p′分别X,Y的特征向量,|p-p′|是p和p′之间的欧式距离;通过判断两个微博用户信息之间的距离来确定微博用户是否为同一类型,如果是同一类型的则放入相同的字典序列。本专利技术的另一目的在于提供一种实现所述面向微博的用户信息采集方法的计算机程序。本专利技术的另一目的在于提供一种实现所述面向微博的用户信息采集方法的信息数据处理终端。本专利技术的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的面向微博的用户信息采集方法。综上所述,本专利技术的优点及积极效果为:本专利技术采用优先分层获取原则,得分较高的用户优先获取,然后把不同层级的用户依次获取,该方法获取速度较快,而且获取效率较高,获取信息较为全面。本专利技术可以有效的获取不同用户的相同信息,以便研究信息的价值。根据聚类特点,可以快速的对某些类别的用户信息进行信息汇总,以便扩大信息总量。现有技术与传统技术对微博用户信息获取聚类效果对比如表1:聚类效果对比表1从实验数据可知,用传统方法获取到的微博用户之间的几乎没有相似性,而采用本方法获取得到的微博用户之间有较好的相似性,因此采用本方法可以有效获取相似微博的用户信息。附图说明图1是本专利技术实施例提供的面向微博的用户信息采集方法流程图。图2是本专利技术实施例提供的面向微博的用户信息采集方法实现流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术解决了因为相同的URL很有可能包含了多个网页的信息,而相似的URL也很有可能指向同一网页,因此,在微博信息提取时会抽取到重复或近似的URL,在对微博用户信息提取之前需要对URL进行重复检测,将已经抽取的放入,未被抽取的用MD5算法去重的问题。解决了微博用户名与用户名之间存在很多相似问题,进行相似性检验,保证获取信息的准确性。如图1所示,本专利技术实施例提供的面向微博的用户信息采集方法包括以下步骤:S101:通过正则表达式获取<aclass=到<a/>之间的文字及超级链接;S102:再次使用正则表达式获取<aclass=到</span>之间的文字及超级链接;S103:将获取的微博用户信息,粉丝,关注及各自对应的链接存入字典里;S10本文档来自技高网
...

【技术保护点】
1.一种面向微博的用户信息采集方法,其特征在于,所述面向微博的用户信息采集方法从任意一个微博用户的URL进入,获取与用户有关的其他用户,并记录各用户的URL,通过聚类把相似微博用户的信息获取出来,然后用户信息评价优先获取较高得分的用户信息,依次进行完成所有微博用户信息的提取。

【技术特征摘要】
1.一种面向微博的用户信息采集方法,其特征在于,所述面向微博的用户信息采集方法从任意一个微博用户的URL进入,获取与用户有关的其他用户,并记录各用户的URL,通过聚类把相似微博用户的信息获取出来,然后用户信息评价优先获取较高得分的用户信息,依次进行完成所有微博用户信息的提取。2.如权利要求1所述的面向微博的用户信息采集方法,其特征在于,所述面向微博的用户信息采集方法包括以下步骤:步骤一,通过正则表达式获取<aclass=到<a/>之间的文字及超级链接;步骤二,再次使用正则表达式获取<aclass=到</span>之间的文字及超级链接;步骤三,将获取的微博用户信息,粉丝,关注及各自对应的链接存入字典里;步骤四,计算获取用户信息之间的相似性,相似性较高的在下次优先获取;步骤五,对已经获取的用户信息进行标号,用聚类的方法进行重复率检测;步骤六,逐步循环直到把所有的微博用户全部获取出来。3.如权利要求2所述的面向微博的用户信息采集方法,其特征在于,计算任意两个微博用户X与Y之间的相似性:I(X,Y)为第X个微博用户与第Y个微博用户之间的相似程度,I(X,Y)值...

【专利技术属性】
技术研发人员:詹咏松程国艮
申请(专利权)人:中译语通科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1