【技术实现步骤摘要】
一种通用的新闻评论采集方法及装置
本专利技术涉及一种新闻评论采集方法,特别涉及一种通用的新闻评论采集方法及装置。
技术介绍
网页信息采集一直是互联网技术中的一项重要研究课题。近年来,随着AJAX技术的普及,国内主流网站已进入WEB2.0的成熟时期,传统的网络爬虫(WEBCrawler)已不能完成这种采用异步交互模式获取数据的页面的采集工作。方案一:目前国内外已有很多学者进行了研究,主流的解决方案是采用内置浏览器模块来模拟用户动作操作网页元素进行网页数据的获取的。方案二:《一种网络评论的采集方法及系统》申请公开的专利,所述方法包括:获取一网页入口链接地址;判断所述网页入口链接地址对应的网页上是否有N个网络评论,其中,所述N为正整数;在有所述N个网络评论时,判断所述N个网络评论中是否有M个网络评论满足采集的条件,其中,所述M为小于或等于N的正整数;在有所述M个网络评论满足采集的条件时,采集所述M个网络评论。方案一,采用模拟浏览器行为的方式,必然会导致大量的时间浪费在AJAX代码解析上。首先,虽然大部分网站都是用的AJAX技术,但是其框架并没有统一的协议,这为通用的代码解析器的研究带来很大的困难。其次,网页发起的异步请求并不一定是获取用户需要的数据,相反的,大部分请求都是返回表现层的代码或数据,这些数据交互和信息会占用大量的解析时间。方案二,《一种网络评论的采集方法及系统》申请公开的专利,仅有简单的一种入口链接地址的获取方式,并且,对于页面内容的获取也是比较简单,对于目前复杂的WEB2.0时代来说,没有实践性。一方面无法实现通用可配置的入口连接地址的获取,另一方 ...
【技术保护点】
一种通用的新闻评论采集方法,其特征在于,包括以下步骤:步骤1:获取用户输入的新闻链接地址及用户配置的采集配置文件,所述采集配置文件包括用于配置新闻评论入口链接的模板地址的新闻评论链接采集配置文件,和用于新闻评论内容采集的内容采集配置文件;步骤2:读取采集配置文件中的模板地址,所述模板地址中包含若干拼接参数;步骤3:根据获取的新闻链接地址,分析新闻链接地址对应的域名,从新闻评论链接采集配置文件中获取所述域名的新闻评论入口链接的模板地址,并获取新闻评论链接采集配置文件中用于抽取模板地址中新的拼接参数的配置信息;步骤4:逐条根据获取的配置信息,在新闻页面或新闻链接地址中进行抽取,获得新的拼接参数,将获得的新拼接参数替换掉模板地址中原有的拼接参数,得到新闻评论入口链接地址;步骤5:根据新闻评论入口链接地址、内容采集配置文件及新闻评论页面的页面类型解析新闻评论页面,结合抽取配置文件及开源工具逐条获取新闻评论页面中的评论内容,直到所有新闻的评论内容全部采集完毕。
【技术特征摘要】
1.一种通用的新闻评论采集方法,其特征在于,包括以下步骤:步骤1:获取用户输入的新闻链接地址及用户配置的采集配置文件,所述采集配置文件包括用于配置新闻评论入口链接的模板地址的新闻评论链接采集配置文件,和用于新闻评论内容采集的内容采集配置文件;步骤2:读取采集配置文件中的模板地址,所述模板地址中包含若干拼接参数;步骤3:根据获取的新闻链接地址,分析新闻链接地址对应的域名,从新闻评论链接采集配置文件中获取所述域名的新闻评论入口链接的模板地址,并获取新闻评论链接采集配置文件中用于抽取模板地址中新的拼接参数的配置信息;步骤4:逐条根据获取的配置信息,在新闻页面或新闻链接地址中进行抽取,获得新的拼接参数,将获得的新拼接参数替换掉模板地址中原有的拼接参数,得到新闻评论入口链接地址;步骤5:根据新闻评论入口链接地址、内容采集配置文件及新闻评论页面的页面类型解析新闻评论页面,结合抽取配置文件及开源工具逐条获取新闻评论页面中的评论内容,直到所有新闻的评论内容全部采集完毕。2.根据权利要求1所述的新闻评论采集方法,其特征在于:所述配置信息中包含评论定位配置信息和字段抽取配置信息。3.根据权利要求2所述的新闻评论采集方法,其特征在于,所述步骤5中当新闻评论页面为HTML格式时,新闻评论采集过程进一步包括以下步骤:步骤3.11:使用开源的HTMLParser解析工具类,将新闻评论页面转化为Parser对象;步骤3.12:根据配置信息中包含的评论定位配置信息,建立NodeFiler对象,将由新闻评论页面转化成的Parser对象进行过滤,得到仅包含所有评论内容的由一组Node对象构成的NodeList对象;步骤3.13:遍历NodeList对象中的每个Node对象,根据字段抽取配置信息,抽取每条评论中的ID、作者、内容和发布时间信息;步骤3.14:将本次采集的所有评论的ID与已采集的ID列表进行比对查重,保留所有未重复的评论,并将这些未重复的ID存入ID列表。4.根据权利要求2所述的新闻评论采集方法,其特征在于,所述步骤5中当新闻评论页面为JSON格式时,新闻评论采集过程进一步包括以下步骤:步骤3.21:使用开源的JSON-LIB解析工具类,将新闻评论页面转化为JSON对象;步骤3.22:根据配置信息中包含的评论定位配置信息,从JSON对象中定位得到仅包含评论内容的多个JSON对象;步骤3.23:遍历每条评论的JSON对象,根据字段抽取配置信息,定位获取每条评论中的ID、作者、内容和发布时间信息;步骤3.24:将本次采集的所有评论的ID与已采集的ID列表进行比对查重,保留所有未重复的评论,并将这些未重复的ID存入ID列表。5.根据权利要求4所述的新闻评论采集方法,其特征在于:所述步骤3.22中,根据评论定位配置信息中包含的评论路径信息,从JSON对象中定位得到仅包含评论内容的多个JSON对象;所述步骤3.23中,根据字段抽取配置信息中的字段路径信息,定位获取每条评论中的ID、作者、内容和发布时间信息。6.一种通用的新闻评论采集装置,其特征在于:包括获取模块(1),配置模块(2),分析抽取模块(3),抽取替代模块(4)和采集模块(5);所述获取模块(1),用于获取用户输入的新闻评论链接地址,配置采集配置文件;所述配置模块(2),用于读取...
【专利技术属性】
技术研发人员:李至立,丁国栋,公强,刘玮,
申请(专利权)人:烟台中科网络技术研究所,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。