一种数据处理装置及方法制造方法及图纸

技术编号:8532919 阅读:217 留言:0更新日期:2013-04-04 15:56
本发明专利技术公开了一种数据处理装置,所述装置包括:数据抓取模块,用于根据预先配置的抓取规则,进行数据抓取;数据处理模块,用于根据预先配置的数据转换规则,对所述数据抓取模块所抓取的数据进行处理,得到符合所述数据转换规则的标准数据。本发明专利技术还公开了一种数据处理方法,不需要人工进行数据筛选和处理,大大节省了人工筛选数据的时间成本,提高了工作效率,节省了人力物力,并且还能够提高数据处理的准确率。

【技术实现步骤摘要】

本专利技术涉及数据处理技术,尤其涉及。
技术介绍
由于网络的广泛应用,常常需要通过网络向用户推送数据,尤其在电子商务网站。 而通过网络向用户推送数据时,一般都是人工通过访问数据源网站,对数据源网站中推送 的大量数据进行筛选、分类等处理之后,再将数据进行编辑后推送给用户,如此,不仅造成 了人力物力的浪费,而且数据处理效率低下,且常会由于人为失误造成数据处理的准确率 不高,从而导致数据推送的效率和准确率也受到影响,并降低了用户体验。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供,以解决数据推 送中数据处理效率低、浪费人力物力、以及准确率不高的问题。为达到上述目的,本专利技术的技术方案是这样实现的本专利技术提供了一种数据处理装置,所述装置包括数据抓取模块,用于根据预先配置的抓取规则,进行数据抓取;数据处理模块,用于根据预先配置的数据转换规则,对所述数据抓取模块所抓取 的数据进行处理,得到符合所述数据转换规则的标准数据。在上述方案中,所述数据抓取模块包括配置单元和抓取单元,其中,配置单元,用于配置包含有数据源信息和类型信息的抓取规则;抓取单元,用于根据所述配置单元配置的数据源信息,找到数据源,并从所述数据 源中抓取、类型信息与配置单元所配置的类型信息相一致的数据。在上述方案中,所述配置单元包含有用于配置抓取规则的配置文件;所述配置单元,具体用于通过在所述配置文件中写入需抓取数据的数据源信息和 类型信息并保存,完成抓取规则的配置;抓取单元,还用于读取所述配置单元中的配置文件,根据所述配置文件中数据源 信息,找到数据源,从所述数据源中抓取类型信息与所述配置文件中的类型信息相一致的 数据。在上述方案中,所述数据源信息为数据源网站的URL ;和/或,所述类型信息为数 据的品类名称。在上述方案中,所述配置文件为xml格式的文件。在上述方案中,所述数据处理模块,还用于生成包含有所述标准数据的标准数据 文本,并输出该标准数据文本。在上述方案中,所述标准数据文本为TXT文本。本专利技术还提供了一种数据处理方法,所述方法包括根据预先配置的抓取规则,进行数据抓取;根据预先配置的数据转换规则,对所抓取的数据进行处理,得到符合所述数据转 换规则的标准数据。在上述方案中,在进行数据抓取之前,所述方法还包括配置包含有数据源信息和类型信息的抓取规则;所述进行数据抓取,为根据所配置的数据源信息,找到数据源,并从所述数据源 中抓取类型信息与所配置的类型信息相一致的数据。在上述方案中,配置包含有数据源信息和类型信息的抓取规则,包括在用于配置 抓取规则的配置文件中写入需抓取数据的数据源信息和需抓取数据的类型信息并保存;所述进行数据抓取,为读取所述配置文件,根据所述配置文件中数据源信息,找 到数据源,从所述数据源中抓取类型信息与所述配置文件中的类型信息相一致的数据。在上述方案中,所述得到符合所述数据转换规则的标准数据之后,所述方法还包 括生成包含有所述标准数据的标准数据文本,并输出该标准数据文本。本专利技术提供的数据处理装置及方法,根据预先配置的抓取规则进行数据抓取,并 对抓取的数据进行数据转换,得到标准数据,能够基于用户的需求进行数据的获取和处理, 不需要人工进行数据筛选和处理,大大节省了人工筛选数据的时间成本,提高了工作效率, 节省了人力物力,并且还提高了数据处理的准确率。附图说明图1为本专利技术数据处理装置的组成结构示意图2为本专利技术数据处理方法的实现流程图3为本专利技术实施例一中数据处理过程的流程示意图4为本专利技术实施例一中数据处理软件“设置”对话框示意图5为本专利技术实施例一配置文件对话框示意图6为本专利技术实施例一中“查看”对话框示意图7为本专利技术实施例一中进行字段名转换的设置对话框示意图8为本专利技术实施例一中执行数据处理操作的对话框示意图9为本专利技术实施例一中输出标准数据文本的导出对话框示意图。具体实施方式本专利技术的基本思想是提供,能够自动获取特定的数据, 并对数据进行处理,输出标准数据,如此,网站编辑人员便可以直接将所输出的标准数据编 辑到相应的网页中,不仅节省了人力物力,并且提高了数据处理效率。如图1所示,本专利技术的数据处理装置主要可以包括数据抓取模块和数据处理模 块,其中,数据抓取模块,用于根据预先配置的抓取规则,进行数据抓取;数据处理模块,用于根据预先配置的数据转换规则,对所述数据抓取模块所抓取 的数据进行处理,得到符合所述数据转换规则的标准数据。 具体地,所述数据抓取模块包括配置单元和抓取单元,其中,配置单元,用于配置 包含有数据源信息和类型信息的抓取规则;抓取单元,用于根据所述配置单元配置的数据源信息,找到数据源,并从所述数据源中抓取、类型信息与配置单元所配置的类型信息相一 致的数据。这里,所述配置单元包含有用于配置抓取规则的配置文件;所述配置单元,具体用 于通过在所述配置文件中写入需抓取数据的数据源信息和类型信息并保存,完成抓取规则 的配置;抓取单元,还用于读取所述配置单元中的配置文件,根据配置文件中数据源信息, 找到数据源,从所述数据源中抓取类型信息与所述配置文件中的类型信息相一致的数据。这里,所述数据源信息可以为数据源网站的URL,所述类型信息可以为数据的品类 名称。其中,品类名称可以包含如下信息的一种或多种型号、品牌名称、性能参数名称等。具体地,配置单元包含有xml格式的配置文件,通过在所述配置文件中写入需抓 取数据的数据源网站URL和需抓取数据的品类名称并保存,完成抓取规则的配置;抓取单 元,用于读取配置单元中的配置文件,根据配置文件中数据源网站的URL,访问数据源网站, 从数据源网站推送的所有数据中抓取品类名称与配置文件中配置的品类名称相一致的数 据。其中,数据抓取模块基于多线程技术进行数据的抓取。其中,多线程技术是一种并 发技术,基于同时运行多个任务的技术。基于多线程技术进行抓取具有如下任意一种或多 种特征负载均衡通过检测数据源网站的访问负载,调整线程分配,实现性能、效率的提 升,并同时有利于减轻数据源网站访问压力,也能够防止数据源网站的访问频率限制;多层过滤根据链接深度、权重因子以及预设的域名黑白名单,限定抓取范围,防 止海量信息抓取的无限膨胀;抓取去重实时分析历史抓取数据,并调整抓取频率,保证抓取数据的实时性、准 确性,筛除重复抓取数据;代理检测通过检测局域网环境,通过使用代理IP访问具有限制的数据源网站, 从而突破自身的网络限制,实现自由抓取;离线抓取通过已建立的云计算平台,实现数据的云抓取并同步到本地,实现无人 值守的离线数据抓取;敏感信息筛除基于预设的敏感信息关键字,对所抓取到的数据进行敏感信息的 过滤。其中,所述数据处理模块,还用于生成包含有所述标准数据的标准数据文本,并输 出该标准数据文本。这里,为便于网站编辑人员将标准数据编辑到网页中,所述标准数据文 本可以为TXT文本。相应的,本专利技术还提供了一种数据处理方法,参照图2所示,所述方法主要包括如 下步骤步骤201,根据预先配置的抓取规则,进行数据抓取;步骤202,根据预先配置的数据转换规则,对所抓取的数据进行处理,得到符合所 述数据转换规则的标准数据。其中,在进行数据抓取之前,所述方法还包括配置包含有数据源信息和类型信息 的抓取规则;所述进行数据抓取,可以为根据所配置的数据源信息本文档来自技高网...

【技术保护点】
一种数据处理装置,其特征在于,所述装置包括:数据抓取模块,用于根据预先配置的抓取规则,进行数据抓取;数据处理模块,用于根据预先配置的数据转换规则,对所述数据抓取模块所抓取的数据进行处理,得到符合所述数据转换规则的标准数据。

【技术特征摘要】
1.一种数据处理装置,其特征在于,所述装置包括数据抓取模块,用于根据预先配置的抓取规则,进行数据抓取;数据处理模块,用于根据预先配置的数据转换规则,对所述数据抓取模块所抓取的数据进行处理,得到符合所述数据转换规则的标准数据。2.根据权利要求1所述的数据处理装置,其特征在于,所述数据抓取模块包括配置单元和抓取单元,其中,配置单元,用于配置包含有数据源信息和类型信息的抓取规则;抓取单元,用于根据所述配置单元配置的数据源信息,找到数据源,并从所述数据源中抓取、类型信息与配置单元所配置的类型信息相一致的数据。3.根据权利要求2所述的数据处理装置,其特征在于,所述配置单元包含有用于配置抓取规则的配置文件;所述配置单元,具体用于通过在所述配置文件中写入需抓取数据的数据源信息和类型信息并保存,完成抓取规则的配置;抓取单元,还用于读取所述配置单元中的配置文件,根据所述配置文件中数据源信息, 找到数据源,从所述数据源中抓取类型信息与所述配置文件中的类型信息相一致的数据。4.根据权利要求2或3所述的数据处理装置,其特征在于,所述数据源信息为数据源网站的URL ;和/或,所述类型信息为数据的品类名称。5.根据权利要求3所述的数据处理方法,其特征在于,所述配置文件为xml格式的文件。6.根据权利要求1至3任一项所述的数...

【专利技术属性】
技术研发人员:谭耀华阮威邓教武
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1