一种搜悦采集方法技术

技术编号:11616632 阅读:67 留言:0更新日期:2015-06-17 16:12
本发明专利技术提供一种搜悦采集方法,所述方法包括以下步骤:监听数据,并对数据进行处理,得到URL数据;对增量待处理数据进行下载、转码和抽取,将完整的数据按照需求提供使用。本发明专利技术提供一种搜悦采集方法,能够高效、准确采集数据,数据来源准确,处理快速、结果更精准,避免了普通的采集资讯中大量噪音数据影响的不足。

【技术实现步骤摘要】

本专利技术涉及一种采集方法,具体涉及。
技术介绍
随着信息技技术与网络的发展,互联网已经成为人们生活密不可分的一部分。基于Internet的网络系统拥有者巨大的信息资源。但是这些资源大都形式分散,分布广,给用户查看信息带来了很大的难度。搜索引擎则根据用户的需求,各种各样是搜索应用,使得用户可以快捷的查看的自己想要的数据。互联网中的资源信息,就像列表以不同的格式分散在成千上万的网页中,很好的采集这些数据以备使用就尤为重要。信息采集是一个重要的领域,它是以系统代替人工实现对网页的数据的采集、整理等处理,提高工作效率,节省劳动力。但目前人们希望在手机端也可以随时查看相关信息,手机端APP随之产生。搜悦则在这样的背景下产生的,作为移动个人门户的入口,可以让用户感受到更好的新闻阅读体验。搜悦采集系统架构完成信息的采集、整理等工作,存储到搜悦检索库中,以备搜悦使用。搜悦采集系统的关键在于信息采集,缺点是网络中资讯信息噪音多,来源广泛且杂。
技术实现思路
为了克服上述现有技术的不足,本专利技术提供,能够高效、准确采集数据,数据来源准确,处理快速、结果更精准,避免了普通的采集资讯中大量噪音数据影响的不足。为了实现上述专利技术目的,本专利技术采取如下技术方案:本专利技术提供,所述方法包括以下步骤:步骤1:监听数据,并对数据进行处理,得到待处理URL数据;步骤2:对待处理URL数据进行下载、转码和抽取。所述步骤I中,监听的数据来源包括以下三种:(I)统一资源定位器发送的Missing数据;(2)资讯排重系统发送的ADD数据;(3)重新处理已入库的数据,而发起的Refresh数据。所述步骤I具体包括以下步骤:步骤1-1:监听数据,校验后保存数据到数据文件;步骤1-2:处理监听得到的数据文件。所述步骤1-1中,监听端口接收数据后解析并校验得到URL数据,并将得到的URL数据根据各自的来源写入相应的数据文件,Missing数据、ADD数据和Refresh数据的处理优先级从左往右依次递减。所述步骤1-2中,按照以上数据文件的处理优先级依次取得URL数据,将URL数据由黑名单过滤,且排重后得到URL数据增量,推入待下载任务队列;推入待下任务队列时依然按照Missing数据、ADD数据至Refresh数据的处理优先级,在待下载任务队列中排序,优先级高的数据放在队列头,以确保后续处理的优先级。所述步骤2包括以下步骤:步骤2-1:将待下载任务队列的URL数据推送到下载器,由下载器下载URL数据;步骤2-2:从下载器得到下载结果,并校验处理,区分下载结果为图片或详情页;步骤2-3:对图片的下载结果和详情页的下载结果分别进行处理,得到URL数据信息;步骤2-4:分析URL数据信息。所述步骤2-2中,针对图片的下载结果,首先分析图片信息,并处理图片尺寸,根据实践经验得到最小经验值,小于最小经验值尺寸的图片视为垃圾图片,则丢弃,根据需求,小于需求尺寸则无须压缩处理,而大于需求尺寸的图片则压缩到需求的尺寸;然后将符合要求的图片信息上传图片服务器,得到图片ID及图片地址,并将下载结果中原文的图片链接替换成处理后的图片地址。所述步骤2-3中,针对详情页的下载结果,分析下载结果,并对下载结果进行转码,成功转码后,对其进行自动抽取,在下载结果中抽取出所需要的信息。任何一步失败则丢弃当前详情页,均直接执行步骤2-4。所述步骤2-3中,在对图片的下载结果和详情页的下载结果分别进行处理的过程中,任何一步失败则丢弃当前图片或当前详情页,均直接执行步骤2-4。所述步骤2-4中,首先查看URL数据信息是否有待处理的图片链接;然后查看URL数据信息是否有待处理的翻页链接;如有待处理的图片链接或者翻页链接,则将URL数据信息推入待下载队列继续处理,重复以上各步骤;如无任何待处理的图片链接或者翻页链接,且URL数据信息完整,则写入发送文件,当前URL数据信息采集完成。与现有技术相比,本专利技术的有益效果在于:本专利技术中数据来源主要依赖资讯排重系统,资讯排重系统的数据经过前面的处理,信息更准确,质量更好,避免内容重复;从而采集过程中不需要担心劣质数据的混淆,减少噪音数据干扰。客户端的Missing数据的优先处理,即快速而又准确的补充了用户关心的部分漏缺数据。同时,该方法简单,速度快。【附图说明】图1是本专利技术实施例中搜悦采集方法流程图;图2是本专利技术实施例中数据监听流程图;图3是本专利技术实施例中数据采集流程图。【具体实施方式】下面结合附图对本专利技术作进一步详细说明。如图1,本专利技术提供,所述方法包括以下步骤:步骤1:监听数据,并对数据进行处理,得到待处理URL数据;步骤2:对待处理URL数据进行下载、转码和抽取。所述步骤I中,监听的数据来源包括以下三种:(I)统一资源定位器发送的Missing数据;(2)资讯排重系统发送的ADD数据;(3)重新处理已入库的数据,而发起的Refresh数据。如图2,所述步骤I具体包括以下步骤:步骤1-1:监听数据,校验后保存数据到数据文件;步骤1-2:处理监听得到的数据文件。所述步骤1-1中,监听端口接收数据后解析并校验得到URL数据,并将得到的URL数据根据各自的来源写入相应的数据文件,Missing数据、ADD数据和Refresh数据的处理优先级从左往右依次递减。当前第1页1 2 本文档来自技高网...
一种搜悦采集方法

【技术保护点】
一种搜悦采集方法,其特征在于:所述方法包括以下步骤:步骤1:监听数据,并对数据进行处理,得到待处理URL数据;步骤2:对待处理URL数据进行下载、转码和抽取。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵金杰
申请(专利权)人:北京中搜网络技术股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1