一种网页数据的核对方法技术

技术编号:16529088 阅读:26 留言:0更新日期:2017-11-09 20:52
本发明专利技术公开了一种网页数据的核对方法及装置,该方法的步骤包括:获取网页数据,并对网页数据进行提取,以得到目标数据;将目标数据进行分类,并写入目标数据表中;获取标准数据表,并根据标准数据表与目标数据表之间相对应的栏位建立标准数据表与目标数据表的连接关系;根据连接关系核对标准数据表与目标数据表的对应数据,并得到对应数据的差值,将差值作为核对结果。可见本发明专利技术所提供的方法通过使用数据表之间的连接关系进行数据的核对,避免了人为核对网页数据时效率低以及可能出现核对错误的情况,进而提高了准确性以及工作效率。此外,网页数据的核对装置同样具有上述效果。

【技术实现步骤摘要】
一种网页数据的核对方法
本专利技术涉及数据处理领域,特别是涉及一种网页数据的核对方法。
技术介绍
随着互联网技术的不断发展,越来越多的数据通过网页的方式进行呈现。因此在网页中呈现的数据需要人为的完成对其的查找及相应的核对工作。例如,在电子商务领域中,随着第三方支付平台的日益成熟,各企业越来越倾向于通过第三方支付的方式与顾客进行交易,由于第三方支付平台的交易信息更新及时有效,所以建立起了企业与顾客之间的良好合作。而第三方支付平台往往会将买卖双方的交易信息等内容进行记录后通过网页的形式提供给商家或用户查看。企业通过第三方平台提供的交易信息与自身的交易记录进行核对,以确保账目的准确无误。但是由于数据在网页中显示,并且查看交易信息较为繁琐,如果人为的采用在网页中对逐条交易信息进行查找并且比对的方式,则可能会出现人为的对账失误,进而造成企业的经济损失。另一方面,由于企业每天的交易信息数量过于庞大,并且往往更新速度较快,因此,如果仍采用上述的方法,会大大降低整体的工作效率。由此可见,提供一种网页数据的核对方法以提高核对数据时的准确性以及核对的执行效率,是本领域技术人员亟待解决的问题。
技术实现思路
本专利技术的目的是提供一种网页数据的核对方法及装置,避免人为核对网页数据时效率低以及可能出现核对错误的情况,进而提高准确性以及工作效率。为解决上述技术问题,本专利技术提供一种网页数据的核对方法,包括:获取网页数据,并对网页数据进行提取,以得到目标数据;将目标数据进行分类,并写入目标数据表中;获取标准数据表,并根据标准数据表与目标数据表之间相对应的栏位建立标准数据表与目标数据表的连接关系;其中标准数据表中记录有用于核对的标准数据;根据连接关系核对标准数据表与目标数据表的对应数据,并得到对应数据的差值,将差值作为核对结果。优选的,获取网页数据具体为:通过网络爬虫技术获取网页数据。优选的,在获取网页数据,并对网页数据进行提取,以得到目标数据后,该方法进一步包括:将目标数据写入目标数据文件。优选的,在得到对应数据的差值,将差值作为核对结果后,该方法进一步包括:输出核对结果。优选的,在输出核对结果之前,该方法进一步包括:设定误差阈值;相应的,在得到对应数据的差值后,该方法进一步包括:判断差值是否在误差阈值的范围内,如果是,则执行输出核对结果的步骤;否则,进行错误提示。优选的,在输出核对结果后,该方法进一步包括:将核对结果存储到本地数据库。优选的,写入目标数据表的对应栏位中具体为:写入hive数据库的目标数据表的对应栏位中。此外,本专利技术还提供一种网页数据的核对装置,包括:数据提取模块,用于获取网页数据,并对网页数据进行提取,以得到目标数据;数据写入模块,用于将目标数据进行分类,并写入目标数据表中;数据表连接模块,用于获取标准数据表,并根据标准数据表与目标数据表之间相对应的栏位建立标准数据表与目标数据表的连接关系;其中标准数据表中记录有用于核对的标准数据;数据核对模块,用于根据连接关系核对标准数据表与目标数据表的对应数据,并得到对应数据的差值,将差值作为核对结果。优选的,该装置进一步包括:数据写入模块,用于将目标数据写入目标数据文件。优选的,该装置进一步包括:输出模块,用于输出核对结果。本专利技术所提供的网页数据的核对方法,对网页中所呈现的数据进行了提取操作,进而得到目标数据文件,相当于将网页中零散的数据进行了提取及整合,使每条数据不再零散显示在网页中,方便了后续对数据的进一步操作。此外,将目标数据文件中的数据进行归类写入数据表中的目的是为了进一步与标准数据表建立连接以进行两个表单中对应数据位的核对。可见本专利技术所提供的方法通过使用数据表之间的连接关系进行数据的核对,避免了人为核对网页数据时效率低以及可能出现核对错误的情况,进而提高了准确性以及工作效率。此外,本专利技术还提供一种网页数据的核对装置,与上述的方法对应,有益效果如上所述。附图说明为了更清楚地说明本专利技术实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种网页数据的核对方法的流程图;图2为本专利技术实施例提供的另一种网页数据的核对方法的流程图;图3为本专利技术实施例提供的一种网页数据的核对装置结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本专利技术保护范围。本专利技术的核心是提供一种网页数据的核对方法及装置,避免了人为核对网页数据时效率低以及可能出现核对错误的情况,进而提高了准确性以及工作效率。为了使本
的人员更好地理解本专利技术方案,下面结合附图和具体实施方式对本专利技术作进一步的详细说明。实施例一图1为本专利技术实施例提供的一种网页数据的核对方法的流程图。请参考图1,网页数据的核对方法的具体步骤包括:步骤S10:获取网页数据,并对网页数据进行提取,以得到目标数据。本步骤的目的时将网页上的需要进行后续核对的数据进行提取。需要说明的是,由于目标数据完全为网页上的实时数据,因此即使网页中的数据发生了变化目标数据也会相应的进行改变,因此目标数据更加具有时效性。步骤S11:将目标数据进行分类,并写入目标数据表中。可以理解的是,由于从网页中获取的目标数据没有明确的类别关系,无法存入数据表中进行后续使用。因此,需要对目标数据进行按类型分布,相同类型的数据代表同样的内容,进而将代表相同内容的数据写入目标数据表的对应栏位中。步骤S12:获取标准数据表,并根据标准数据表与目标数据表之间相对应的栏位建立标准数据表与目标数据表的连接关系。其中标准数据表中记录有用于核对的标准数据。需要说明的是,数据表之间通过相同的键进行连接关系的建立,所述的键在数据表中以栏位的形式展现,相当于将两个数据表中均具有的栏位作为连接轴,连接成一张数据表。在连接之后,两张表中的栏位能够相互对应,因此可以进行后续对两个数据表中相对应栏位中的数据进行比对的操作。步骤S13:根据连接关系核对标准数据表与目标数据表的对应数据,并得到对应数据的差值,将差值作为核对结果。可以理解的是,核对的目是得知核对的数据之间是否一致或相差的值,因此对应数据的差值即为对数据核对的结果。本专利技术所提供的网页数据的核对方法,对网页中所呈现的数据进行了提取操作,进而得到目标数据文件,相当于将网页中零散的数据进行了提取及整合,使每条数据不再零散显示在网页中,方便了后续对数据的进一步操作。此外,将目标数据文件中的数据进行归类写入数据表中的目的是为了进一步与标准数据表建立连接以进行两个表单中对应数据位的核对。可见本专利技术所提供的方法通过使用数据表之间的连接关系进行数据的核对,避免了人为核对网页数据时效率低以及可能出现核对错误的情况,进而提高了准确性以及工作效率。实施例二图2为本专利技术实施例提供的另一种网页数据的核对方法的流程图。图2中步骤S10-S13与图1相同,在此不再赘述。在上述实施例的基础上,作为一种优选的本文档来自技高网
...
一种网页数据的核对方法

【技术保护点】
一种网页数据的核对方法,其特征在于,包括:获取网页数据,并对所述网页数据进行提取,以得到目标数据;将所述目标数据进行分类,并写入目标数据表中;获取标准数据表,并根据所述标准数据表与所述目标数据表之间相对应的栏位建立所述标准数据表与所述目标数据表的连接关系;其中所述标准数据表中记录有用于核对的标准数据;根据所述连接关系核对所述标准数据表与所述目标数据表的对应数据,并得到所述对应数据的差值,将所述差值作为核对结果。

【技术特征摘要】
1.一种网页数据的核对方法,其特征在于,包括:获取网页数据,并对所述网页数据进行提取,以得到目标数据;将所述目标数据进行分类,并写入目标数据表中;获取标准数据表,并根据所述标准数据表与所述目标数据表之间相对应的栏位建立所述标准数据表与所述目标数据表的连接关系;其中所述标准数据表中记录有用于核对的标准数据;根据所述连接关系核对所述标准数据表与所述目标数据表的对应数据,并得到所述对应数据的差值,将所述差值作为核对结果。2.根据权利要求1所述的方法,其特征在于,所述获取网页数据具体为:通过网络爬虫技术获取网页数据。3.根据权利要求1或2所述的方法,其特征在于,在所述获取网页数据,并对所述网页数据进行提取,以得到目标数据后,该方法进一步包括:将所述目标数据写入目标数据文件。4.根据权利要求1或2所述的方法,其特征在于,在所述得到所述对应数据的差值,将所述差值作为核对结果后,该方法进一步包括:输出核对结果。5.根据权利要求4所述的方法,其特征在于,在所述输出核对结果之前,该方法进一步包括:设定误差阈值;相应的,在所述得到所述对应数据的差值后,该方法进一步包括:判断所述差值是否在所述误差阈值的...

【专利技术属性】
技术研发人员:王黎丁美香
申请(专利权)人:浙江极赢信息技术有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1