对新闻客户端的数据采集及解析的方法及系统技术方案

技术编号:11975210 阅读:158 留言:0更新日期:2015-08-31 01:09
本发明专利技术提供了一种对新闻客户端的数据采集及解析的方法及系统,方法包括:根据获取的新闻客户端的数量创建线程,获取CPU核心数量并将每个线程绑定于相应的CPU核心;获取每个新闻客户端的栏目信息并获取每个栏目的预置属性文件,下载每个栏目的数据并生成采集节点,在将每个采集节点的数据存储于对应的采集队列后再传到解析单元;解析每个栏目的属性信息并获取每条新闻对应的正文信息,形成每条新闻数据的解析节点并存于预置解析队列中;将同一CPU核心上预置解析队列中的数据存储于对应的预置输出队列,以便将预置输出队列中的数据传送至预置数据库,且基于预置数据库中的数据实现对新闻客户端数据的监管。该方法可提高数据处理效率。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种对新闻客户端的数据采集及解析的方法及系统,方法包括:根据获取的新闻客户端的数量创建线程,获取CPU核心数量并将每个线程绑定于相应的CPU核心;获取每个新闻客户端的栏目信息并获取每个栏目的预置属性文件,下载每个栏目的数据并生成采集节点,在将每个采集节点的数据存储于对应的采集队列后再传到解析单元;解析每个栏目的属性信息并获取每条新闻对应的正文信息,形成每条新闻数据的解析节点并存于预置解析队列中;将同一CPU核心上预置解析队列中的数据存储于对应的预置输出队列,以便将预置输出队列中的数据传送至预置数据库,且基于预置数据库中的数据实现对新闻客户端数据的监管。该方法可提高数据处理效率。【专利说明】对新闻客户端的数据采集及解析的方法及系统
本专利技术涉及数据处理领域,特别涉及一种对新闻客户端的数据采集及解析的方法及系统。
技术介绍
随着移动互联网技术的迅猛发展,出现了很多种移动终端新闻客户端(为便于描述本申请中可简称为新闻客户端,比如搜狐新闻、今日头条、百度新闻等),其中除了包括主流媒体的新闻客户端,还包括聚合类的新闻客户端。该些新闻客户端的影响日益扩大且发挥了积极的作用,与在互联网上看新闻相比,新闻客户端的新闻传播速度更为及时,实时性更强,有很多都是事件现场的亲历者在第一时间传播而成为事件发展的源头信息,此外,使用新闻客户端的用户参与度更高,因此传播的范围更广。 目前,新闻监管部门对于新闻客户端发布的信息的监管还处于人工监管状态,不仅工作效率低,而且对于通过新闻客户端传播的负面信息很难及时发现及控制,此外,针对新闻客户端数据监管方面,在国内外相关领域也未发现公开过更为有效的方案。 总之,现有技术中对于新闻客户端的数据处理的方案还不够理想。
技术实现思路
本专利技术提供了一种对新闻客户端的数据采集及解析的方法及系统,采用多个CPU核心同步处理及多线程并行处理的方式对新闻客户端的数据进行采集及解析,可解决上述现有技术中的不足,可提高数据处理效率。 根据本专利技术的一方面,本专利技术提出了一种对新闻客户端的数据采集及解析的方法,所述方法应用于对新闻客户端的并行数据采集及解析的系统,包括:根据获取到的新闻客户端的数量创建相同数量的线程,获取系统的中央处理器CPU的核心数量并根据预设规则将每个线程绑定在相应的CPU核心上,其中,每个线程对应处理一个新闻客户端的数据;获取每个新闻客户端的栏目信息并获取每个栏目对应的预置属性文件,根据获取结果遍历下载每个栏目中的数据并生成相应的采集节点,在将每个新闻客户端所有栏目的采集节点中的数据存储于该新闻客户端对应的采集队列后再传送到解析单元,其中,所述栏目信息包括栏目名称、栏目地址和栏目数量;根据接收到的数据解析出每个栏目的属性信息,并根据解析结果获取每条新闻对应的正文信息,再根据每条新闻的预置标识与所述正文信息做关联,形成每条新闻数据的解析节点,并将每个解析节点存储于预置解析队列中;将同一 CPU核心上的所有预置解析队列中的数据存储于对应的预置输出队列中,当接收到输出指令时则将预置输出队列中的数据传送于预置数据库内,以便基于预置数据库中的数据实现对新闻客户端数据的监管。 优选地,根据预设规则将每个线程绑定在相应的CPU核心上,包括: 根据所述新闻客户端的数量N及CPU的核心数量C取模,并将第η个线程绑定在第n%C个CPU的核心上,其中,N、C和η均为正整数,N彡1,C彡I且η彡I。 优选地,所述方法还包括:获取新闻客户端的数量,具体为:通过读取预置配置文件获取新闻客户端的数量;获取系统的中央处理器CPU的核心数量,具体为:根据预置程序自动获取CPU的核心数量;获取每个新闻客户端的栏目信息,具体为:通过读取预置配置文件获取每个新闻客户端的栏目信息;其中,所述预置配置文件中包括:新闻客户端的数量、新闻客户端的名称、每个新闻客户端对应的栏目信息。 优选地,所述方法还包括:通过读取预置配置文件获取每个CPU核心的预置使用率阈值及在所述预置使用率阈值下可持续使用的预置持续时间;若在所述预置持续时间段内的任一 CPU核心的使用率超过预置使用率阈值,则将该CPU核心上绑定的预设数量的线程解除绑定,以便将解除绑定的线程重新绑定到低使用率的CPU核心上;其中,所述预置配置文件中还包括:每个CPU核心的预置使用率阈值及在所述预置使用率阈值下可持续使用的预置持续时间。 优选地,所述方法还包括:获取每个新闻客户端的数据流量,根据获取结果设置遍历下载每个新闻客户端包含的每个栏目中的数据的时间间隔,并将所述时间间隔存储于预置配置文件中;所述遍历下载每个栏目中的数据,包括:通过读取预置配置文件获取所述时间间隔并根据所述时间间隔遍历下载每个栏目中的数据。 根据本专利技术的另一方面,本专利技术还提出了对新闻客户端的数据采集及解析的系统,包括:线程管理单元,用于根据获取到的新闻客户端的数量创建相同数量的线程,获取系统的中央处理器CPU的核心数量并根据预设规则将每个线程绑定在相应的CPU核心上,其中,每个线程对应处理一个新闻客户端的数据;采集单元,用于获取每个新闻客户端的栏目信息并获取每个栏目对应的预置属性文件,根据获取结果遍历下载每个栏目中的数据并生成相应的采集节点,在将每个新闻客户端所有栏目的采集节点中的数据存储于该新闻客户端对应的采集队列后再传送到解析单元,其中,所述栏目信息包括栏目名称、栏目地址和栏目数量;解析单元,用于根据接收到的数据解析出每个栏目的属性信息,并根据解析结果获取每条新闻对应的正文信息,再根据每条新闻的预置标识与所述正文信息做关联,形成每条新闻数据的解析节点,并将每个解析节点存储于预置解析队列中;存储单元,用于将同一 CPU核心上的所有预置解析队列中的数据存储于对应的预置输出队列中,当接收到输出指令时则将预置输出队列中的数据传送于预置数据库内,以便基于预置数据库中的数据实现对新闻客户端数据的监管。 优选地,所述线程管理单元,具体用于:根据所述新闻客户端的数量N及CPU的核心数量C取模,并将第η个线程绑定在第n%C个CPU的核心上,其中,N、C和η均为正整数,N彡1,C彡I且η彡I。 优选地,所述系统还包括:所述线程管理单元,具体用于:通过读取预置配置文件获取新闻客户端的数量,且根据预置程序自动获取CPU的核心数量;所述采集单元,具体用于:通过读取预置配置文件获取每个新闻客户端的栏目信息;其中,所述预置配置文件中包括:新闻客户端的数量、新闻客户端的名称、每个新闻客户端对应的栏目信息。 优选地,所述线程管理单元,还用于:通过读取预置配置文件获取每个CPU核心的预置使用率阈值及在所述预置使用率阈值下可持续使用的预置持续时间;若在所述预置持续时间段内的任一 CPU核心的使用率超过预置使用率阈值,则将该CPU核心上绑定的预设数量的线程解除绑定,以便将解除绑定的线程重新绑定到低使用率的CPU核心上;其中,所述预置配置文件中还包括:每个CPU核心的预置使用率阈值及在所述预置使用率阈值下可持续使用的预置持续时间。 优选地,所述系统还包括:设置单元,用于获取每个新闻客户端的数据流量,根据获取结果设置遍历下载每个新闻客户端包含的每个栏目中的数据本文档来自技高网
...
对新闻客户端的数据采集及解析的方法及系统

【技术保护点】
一种对新闻客户端的数据采集及解析的方法,其特征在于,所述方法应用于对新闻客户端的并行数据采集及解析的系统,包括:根据获取到的新闻客户端的数量创建相同数量的线程,获取系统的中央处理器CPU的核心数量并根据预设规则将每个线程绑定在相应的CPU核心上,其中,每个线程对应处理一个新闻客户端的数据;获取每个新闻客户端的栏目信息并获取每个栏目对应的预置属性文件,根据获取结果遍历下载每个栏目中的数据并生成相应的采集节点,在将每个新闻客户端所有栏目的采集节点中的数据存储于该新闻客户端对应的采集队列后再传送到解析单元,其中,所述栏目信息包括栏目名称、栏目地址和栏目数量;根据接收到的数据解析出每个栏目的属性信息,并根据解析结果获取每条新闻对应的正文信息,再根据每条新闻的预置标识与所述正文信息做关联,形成每条新闻数据的解析节点,并将每个解析节点存储于预置解析队列中;将同一CPU核心上的所有预置解析队列中的数据存储于对应的预置输出队列中,当接收到输出指令时则将预置输出队列中的数据传送于预置数据库内,以便基于预置数据库中的数据实现对新闻客户端数据的监管。

【技术特征摘要】

【专利技术属性】
技术研发人员:魏永涛高峰魏永杰
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1