一种通用的新闻评论采集方法及装置制造方法及图纸

技术编号:10160024 阅读:115 留言:0更新日期:2014-07-01 14:48
本发明专利技术涉及一种通用的新闻评论采集方法及装置,包括以下步骤:获取用户输入的新闻链接地址及用户配置的采集配置文件;读取采集配置文件中的模板地址;根据新闻链接地址分析新闻链接地址对应的域名,从新闻评论链接采集配置文件中获取所述域名的新闻评论入口链接的模板地址,并获取新闻评论链接采集配置文件中的配置信息;逐条根据配置信息,在新闻页面或新闻链接地址中进行抽取,获得新的拼接参数,将获得的新拼接参数替换掉模板地址中原有的拼接参数;逐条获取新闻评论页面中的评论内容,直到所有新闻的评论内容全部采集完毕。本发明专利技术能够大幅提高新闻评论采集效率、实现新闻评论采集通用性,且具有准确性及稳定性。

【技术实现步骤摘要】
一种通用的新闻评论采集方法及装置
本专利技术涉及一种新闻评论采集方法,特别涉及一种通用的新闻评论采集方法及装置。
技术介绍
网页信息采集一直是互联网技术中的一项重要研究课题。近年来,随着AJAX技术的普及,国内主流网站已进入WEB2.0的成熟时期,传统的网络爬虫(WEBCrawler)已不能完成这种采用异步交互模式获取数据的页面的采集工作。方案一:目前国内外已有很多学者进行了研究,主流的解决方案是采用内置浏览器模块来模拟用户动作操作网页元素进行网页数据的获取的。方案二:《一种网络评论的采集方法及系统》申请公开的专利,所述方法包括:获取一网页入口链接地址;判断所述网页入口链接地址对应的网页上是否有N个网络评论,其中,所述N为正整数;在有所述N个网络评论时,判断所述N个网络评论中是否有M个网络评论满足采集的条件,其中,所述M为小于或等于N的正整数;在有所述M个网络评论满足采集的条件时,采集所述M个网络评论。方案一,采用模拟浏览器行为的方式,必然会导致大量的时间浪费在AJAX代码解析上。首先,虽然大部分网站都是用的AJAX技术,但是其框架并没有统一的协议,这为通用的代码解析器的研究带来很大的困难。其次,网页发起的异步请求并不一定是获取用户需要的数据,相反的,大部分请求都是返回表现层的代码或数据,这些数据交互和信息会占用大量的解析时间。方案二,《一种网络评论的采集方法及系统》申请公开的专利,仅有简单的一种入口链接地址的获取方式,并且,对于页面内容的获取也是比较简单,对于目前复杂的WEB2.0时代来说,没有实践性。一方面无法实现通用可配置的入口连接地址的获取,另一方面,针对目前HTML和JSON为主的网页内容,没有针对性的采集方案,对于新评论的判断方案的效率也低于本专利技术。
技术实现思路
本专利技术所要解决的技术问题是提供一种能够大幅提高新闻评论采集效率、实现新闻评论采集通用性,且具有准确性及稳定性的通用的新闻评论采集方法及装置。本专利技术解决上述技术问题的技术方案如下:一种通用的新闻评论采集方法,包括以下步骤:步骤1:获取用户输入的新闻链接地址及用户配置的采集配置文件,所述采集配置文件包括用于配置新闻评论入口链接的模板地址的新闻评论链接采集配置文件,和用于新闻评论内容采集的内容采集配置文件;步骤2:读取采集配置文件中的模板地址,所述模板地址中包含若干拼接参数;步骤3:根据获取的新闻链接地址,分析新闻链接地址对应的域名,从新闻评论链接采集配置文件中获取所述域名的新闻评论入口链接的模板地址,并获取新闻评论链接采集配置文件中用于抽取模板地址中新的拼接参数的配置信息;步骤4:逐条根据获取的配置信息,在新闻页面或新闻链接地址中进行抽取,获得新的拼接参数,将获得的新拼接参数替换掉模板地址中原有的拼接参数,得到新闻评论入口链接地址;步骤5:根据新闻评论入口链接地址、内容采集配置文件及新闻评论页面的页面类型解析新闻评论页面,结合抽取配置文件及开源工具逐条获取新闻评论页面中的评论内容,直到所有新闻的评论内容全部采集完毕。本专利技术的有益效果是:本专利技术完全绕过AJAX技术带来的内容采集屏障,回归最简单的页面内容采集。因为上面的方法针对的实际上是新闻的采集,而新闻评论的采集有其特殊性,因此本专利技术目的是:首先,采集中不再使用AJAX解析相关技术,最重要的目标是最大幅度提高采集效率,并且实现评论采集的通用性。其次,实现采集数据的准确性,无论是评论的内容或是作者、时间等信息都能准确无误地捕获;采集功能的稳定性,在高效率采集的基础上,保证采集器稳定的工作。最后,通过配置文件预先人工干预的方式实现国内重要新闻网站采集的全覆盖。在上述技术方案的基础上,本专利技术还可以做如下改进。进一步,所述配置信息中包含评论定位配置信息和字段抽取配置信息。进一步,所述步骤5中当新闻评论页面为HTML格式时,新闻评论过程进一步包括以下步骤:步骤3.11:使用开源的HTMLParser解析工具类,将新闻评论页面转化为Parser对象;步骤3.12:根据配置信息中包含的评论定位配置信息,建立NodeFiler对象,将由新闻评论页面转化成的Parser对象进行过滤,得到仅包含所有评论内容的由一组Node对象构成的NodeList对象;步骤3.13:遍历NodeList对象中的每个Node对象,根据字段抽取配置信息,抽取每条评论中的ID、作者、内容和发布时间信息;步骤3.14:将本次采集的所有评论的ID与已采集的ID列表进行比对查重,保留所有未重复的评论,并将这些未重复的ID存入ID列表。进一步,所述步骤5中当新闻评论页面为JSON格式时,新闻评论过程进一步包括以下步骤:步骤3.21:使用开源的JSON-LIB解析工具类,将新闻评论页面转化为JSON对象;步骤3.22:根据配置信息中包含的评论定位配置信息,从JSON对象中定位得到仅包含评论内容的多个JSON对象;步骤3.23:遍历每条评论的JSON对象,根据字段抽取配置信息,定位获取每条评论中的ID、作者、内容和发布时间信息;步骤3.24:将本次采集的所有评论的ID与已采集的ID列表进行比对查重,保留所有未重复的评论,并将这些未重复的ID存入ID列表。进一步,所述步骤3.22中,根据评论定位配置信息中包含的评论路径信息,从JSON对象中定位得到仅包含评论内容的多个JSON对象;所述步骤3.23中,根据字段抽取配置信息中的字段路径信息,定位获取每条评论中的ID、作者、内容和发布时间信息。进一步,一种通用的新闻评论采集装置,包括获取模块,配置模块,分析抽取模块,抽取替换模块和采集模块;所述获取模块,用于获取用户输入的新闻评论链接地址,配置采集配置文件;所述配置模块,用于读取获取模块配置的采集配置文件,在采集配置文件中配置模板地址,所述模板地址中包含若干旧拼接参数;所述分析抽取模块,用于根据获取模块获取的新闻链接地址,分析其对应的域名,获得采集配置文件中具有相应域名的新闻评论链接地址,并抽取其配置信息;所述抽取替代模块,用于逐条根据分析抽取模块抽取的每条新闻评论链接地址的配置信息,在新闻页面或新闻链接地址中进行抽取,获得新拼接参数,将获得的新拼接参数替换掉配置模块配置的模板地址中的旧拼接参数,得到新闻评论入口链接地址;所述采集模块,根据抽取替代模块得到的新闻评论入口链接地址,逐条获取新闻评论页面中的评论内容,直到所有新闻的评论内容全部采集完毕。进一步,所述配置信息中包含评论定位配置信息和字段抽取配置信息。进一步,所述采集模块中当新闻评论页面为HTML格式时,采集模块进一步包括Parser转化子模块,建立过滤子模块,遍历抽取子模块和第一比对查重模块:所述Parser转化子模块,用于使用开源的HTMLParser解析工具类,将新闻评论页面转化为Parser对象;所述建立过滤子模块,用于根据配置信息中包含的评论定位配置信息,建立NodeFiler对象,将由新闻评论页面转化成的Parser对象进行过滤,得到仅包含所有评论内容的由一组Node对象构成的NodeList对象;所述遍历抽取子模块,用于遍历NodeList对象中的每个Node对象,根据字段抽取配置信息,抽取每条评论中的ID、作者、内容和发布时间信息;所述第一比对查重模块,用于将本次采本文档来自技高网
...
一种通用的新闻评论采集方法及装置

【技术保护点】
一种通用的新闻评论采集方法,其特征在于,包括以下步骤:步骤1:获取用户输入的新闻链接地址及用户配置的采集配置文件,所述采集配置文件包括用于配置新闻评论入口链接的模板地址的新闻评论链接采集配置文件,和用于新闻评论内容采集的内容采集配置文件;步骤2:读取采集配置文件中的模板地址,所述模板地址中包含若干拼接参数;步骤3:根据获取的新闻链接地址,分析新闻链接地址对应的域名,从新闻评论链接采集配置文件中获取所述域名的新闻评论入口链接的模板地址,并获取新闻评论链接采集配置文件中用于抽取模板地址中新的拼接参数的配置信息;步骤4:逐条根据获取的配置信息,在新闻页面或新闻链接地址中进行抽取,获得新的拼接参数,将获得的新拼接参数替换掉模板地址中原有的拼接参数,得到新闻评论入口链接地址;步骤5:根据新闻评论入口链接地址、内容采集配置文件及新闻评论页面的页面类型解析新闻评论页面,结合抽取配置文件及开源工具逐条获取新闻评论页面中的评论内容,直到所有新闻的评论内容全部采集完毕。

【技术特征摘要】
1.一种通用的新闻评论采集方法,其特征在于,包括以下步骤:步骤1:获取用户输入的新闻链接地址及用户配置的采集配置文件,所述采集配置文件包括用于配置新闻评论入口链接的模板地址的新闻评论链接采集配置文件,和用于新闻评论内容采集的内容采集配置文件;步骤2:读取采集配置文件中的模板地址,所述模板地址中包含若干拼接参数;步骤3:根据获取的新闻链接地址,分析新闻链接地址对应的域名,从新闻评论链接采集配置文件中获取所述域名的新闻评论入口链接的模板地址,并获取新闻评论链接采集配置文件中用于抽取模板地址中新的拼接参数的配置信息;步骤4:逐条根据获取的配置信息,在新闻页面或新闻链接地址中进行抽取,获得新的拼接参数,将获得的新拼接参数替换掉模板地址中原有的拼接参数,得到新闻评论入口链接地址;步骤5:根据新闻评论入口链接地址、内容采集配置文件及新闻评论页面的页面类型解析新闻评论页面,结合抽取配置文件及开源工具逐条获取新闻评论页面中的评论内容,直到所有新闻的评论内容全部采集完毕。2.根据权利要求1所述的新闻评论采集方法,其特征在于:所述配置信息中包含评论定位配置信息和字段抽取配置信息。3.根据权利要求2所述的新闻评论采集方法,其特征在于,所述步骤5中当新闻评论页面为HTML格式时,新闻评论采集过程进一步包括以下步骤:步骤3.11:使用开源的HTMLParser解析工具类,将新闻评论页面转化为Parser对象;步骤3.12:根据配置信息中包含的评论定位配置信息,建立NodeFiler对象,将由新闻评论页面转化成的Parser对象进行过滤,得到仅包含所有评论内容的由一组Node对象构成的NodeList对象;步骤3.13:遍历NodeList对象中的每个Node对象,根据字段抽取配置信息,抽取每条评论中的ID、作者、内容和发布时间信息;步骤3.14:将本次采集的所有评论的ID与已采集的ID列表进行比对查重,保留所有未重复的评论,并将这些未重复的ID存入ID列表。4.根据权利要求2所述的新闻评论采集方法,其特征在于,所述步骤5中当新闻评论页面为JSON格式时,新闻评论采集过程进一步包括以下步骤:步骤3.21:使用开源的JSON-LIB解析工具类,将新闻评论页面转化为JSON对象;步骤3.22:根据配置信息中包含的评论定位配置信息,从JSON对象中定位得到仅包含评论内容的多个JSON对象;步骤3.23:遍历每条评论的JSON对象,根据字段抽取配置信息,定位获取每条评论中的ID、作者、内容和发布时间信息;步骤3.24:将本次采集的所有评论的ID与已采集的ID列表进行比对查重,保留所有未重复的评论,并将这些未重复的ID存入ID列表。5.根据权利要求4所述的新闻评论采集方法,其特征在于:所述步骤3.22中,根据评论定位配置信息中包含的评论路径信息,从JSON对象中定位得到仅包含评论内容的多个JSON对象;所述步骤3.23中,根据字段抽取配置信息中的字段路径信息,定位获取每条评论中的ID、作者、内容和发布时间信息。6.一种通用的新闻评论采集装置,其特征在于:包括获取模块(1),配置模块(2),分析抽取模块(3),抽取替代模块(4)和采集模块(5);所述获取模块(1),用于获取用户输入的新闻评论链接地址,配置采集配置文件;所述配置模块(2),用于读取...

【专利技术属性】
技术研发人员:李至立丁国栋公强刘玮
申请(专利权)人:烟台中科网络技术研究所
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1