基于脚本引擎的微博用户关系采集方法技术

技术编号：9295768 阅读：177 留言：0更新日期：2013-10-31 00:22

本发明专利技术涉及信息采集技术领域，公开了一种基于脚本引擎的微博用户关系采集方法，该方法包括步骤：S1，采用脚本引擎技术自动登录微博客网站；S2，采用网页采集方式对特定账户信息爬取其对应内容页面信息；S3，元数据解析，获取用户列表、用户行为机制及用户基本信息；S4，实现用户关系抽取；S5，使用广度优先遍历用户列表，丰富用户关联关系。本发明专利技术提供的采集方法克服了API访问限制问题，有利于微博客信息的规模化采集，同时也提高了信息采集的精确度。

全部详细技术资料下载

【技术实现步骤摘要】
基于脚本引擎的微博用户关系采集方法
本专利技术属于信息
，具体地说，是涉及一种基于脚本引擎的微博用户关系采集方法。
技术介绍
伴随着WEB信息技术的迅猛发展，实体社交关系的研究受到学术界和商业界的密切关注。社交关系随着新兴起的互联网模式——微博的发展呈现指数级的膨胀，如Facebook、LinkedIn、新浪等其中蕴含着大量的用户关系，这些用户关系中潜藏着很大的商业价值。微博用户关系抽取是微博海量信息实时采集的一个基础任务。微博用户关系有助于提供微博信息更新采集的策略，可以作为微博海量信息采集时实时更新采集的一条线索，是微博深入研究的基础资源。目前，微博客用户关系抽取主要采用基于微博开放API的方式，借助微博特有的“Following”和“Followed”规则。因而所获取信息的数量、范围、频度受微博API的限制。这种方法一些不足，其一，采集系统只能按照应用需求的频度和范围获取有限的数据；其二，针对不同API限制访问频率不同，影响数据的动态更新；其三，抽取的用户信息及用户关系不完备，造成采集率不高。
技术实现思路
(一)要解决的技术问题本专利技术要解决的技术问题是：如何解决微博中用户信息的规模化采集，提高采集率，构建较为完备的用户关系。(二)技术方案为解决上述技术问题，本专利技术提供了一种基于脚本引擎的用户关系采集方法，所述方法包括以下步骤：S1，采用脚本引擎技术自动登录微博客网站，实现对微博客网站的高精确度采集；S2，采用网页采集方式对特定账户信息爬取其对应内容页面信息；S3，利用元数据解析技术对其中的用户信息、用户行为机制进行解析，获得用户信息；S4...
基于脚本引擎的微博用户关系采集方法

【技术保护点】
一种基于脚本引擎的微博客用户关系采集方法，其特征在于，包括以下步骤：S1，采用脚本引擎技术自动登录微博客网站；S2，采用网页采集方式对特定账户信息爬取其对应内容页面信息；S3，利用元数据解析技术对其中的用户id、用户行为机制进行解析，获取用户信息；S4，根据用户行为机制，抽取用户关联关系；S5，采用广度优先方式遍历用户列表，对每个采集到的用户id重复上述步骤，丰富用户关系集。

【技术特征摘要】
1.一种基于脚本引擎的微博客用户关系采集方法，其特征在于，包括以下步骤：S1，采用脚本引擎技术自动登录微博客网站；进一步的，采用Javascript脚本语言实现组态软件的脚本功能，采用SpiderMonkey实现组态软件脚本模块的嵌入引擎，只解析页面中与生产连接和微博客内容相关的脚本；进一步的，脚本引擎框架设计要达到的目标是将SpiderMonkey嵌入到组态软件的引擎模块中，使其具有最基本的JavaScript语言处理能力，其实现步骤具体包括：S11，创建引擎封装类JSEngine；S12，实现脚本引擎的初始化输出函数InitScript()；S13，实现脚本引擎的卸载输出函数UnInitScript()；S2，采用网页采集方式对特定账户信息爬取其对应内容页面信息；S3，利用元数据解析技术对其中的用户id、用户行为机制进行解析，获取用户信息；进一步的，实现步骤具体包括：S31，总结各微博网页的HTML文档结构，找出不同结点的标签的区别；S32，根据S31中的HTML文档结构规律过滤掉无效信息，将HTML转化为XHTML，得到标准的XHTML文档，并对文档进行DOM树解析，建立元数据特征模板；S33，匹配模板，根据XHTML文档特点，设计算法，实...

【专利技术属性】
技术研发人员：都云程，
申请(专利权)人：北京拓尔思信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人