一种数据处理方法和装置制造方法及图纸

技术编号:8656006 阅读:119 留言:0更新日期:2013-05-01 23:41
本发明专利技术提供了一种数据处理方法和装置,以解决多次遍历多种不同的文件导致处理时间比较长,效率较低的问题。所述的方法包括:获取n种目标文件,其中,所述目标文件用于存储各个目标的描述信息,一种目标文件存储一种类型的描述信息;对第一种目标文件进行遍历,并依次获取所述第一种目标文件中的目标,对应类型的描述信息,以及所述目标在第一种目标文件中的行数;按照在第一种目标文件中的行数确定所述目标在其他目标文件的相应行数,并依次在其他目标文件的相应行数查找所述目标,并获取对应类型的描述信息,其中,所述其他目标文件是除第一种目标文件以外的n-1种目标文件;将所述目标和对应各类型的描述信息进行关联,构成总目标文件。

【技术实现步骤摘要】

本专利技术涉及数据处理技术,特别是涉及一种数据处理方法和装置
技术介绍
一个目标可能含有多种不同类型的描述信息,而在对目标的数据进行处理时,由于不同类型的描述信息是由不同的处理方法得到的,因此会对各类型的描述信息分别进行存储。上述的处理方法就使得同一目标的描述信息存储于多个不同的文件中,因而当要对该目标进行处理时,就需要分别从不同的文件中获取该目标的描述信息。在这个过程中,需要分别遍历每一个文件的数据,以查找所述目标的描述信息。例如,针对网络中不同网站的浏览数据,则所述网站的浏览数据可以包括访问量、点击率、用户的平均访问时间等,若将网站作为目标,由于对于不同的浏览数据会采用不同的处理方法,因而上述浏览数据经过处理后会保存于不同的文件中。当要对网站的浏览数据进行综合分析时,就需要分别获取每个网站的浏览数据,即针对每一个网站,要分别遍历每一个文件,查找到所述目标再获取对应的数据。但是,采用上述这种方法获取数据时,由于要多次遍历多种不同的文件,因此处理时间比较长,效率较低。
技术实现思路
本专利技术提供了一种数据处理方法和装置,以解决现有技术多次遍历多种不同的文件,导致处理时间比较长,效率较低的问题。为了解决上述问题,本专利技术公开了一种数据处理方法,包括:获取η种目标文件,其中,所述目标文件用于存储各个目标的描述信息,一种目标文件存储一种类型的描述信息,η为正整数;对第一种目标文件进行遍历,并依次获取所述第一种目标文件中的目标,对应类型的描述信息,以及所述目标在第一种目标文件中的行数; 按照在第一种目标文件中的行数确定所述目标在其他目标文件的相应行数,并依次在其他目标文件的相应行数查找所述目标,并获取对应类型的描述信息,其中,所述其他目标文件是除第一种目标文件以外的η-1种目标文件;将所述目标和对应各类型的描述信息进行关联,构成总目标文件。可选的,所述获取η种目标文件之后,还包括:获取每种目标文件的总行数,并将其他目标文件的总行数,以第一种目标文件的总行数为基准进行归一化处理,获取其他目标文件相对应第一种目标文件的行数比。可选的,当所述目标在第一种目标文件中的行数达到预设条件时,重新计算所述行数比。可选的,所述重新计算所述行数比,包括:将第一种目标文件的总行数减去所述目标在第一种目标文件中的行数,获取对应的第一行数;获取所述目标在各其他目标文件中的各相应行数,并将各其他目标文件的总行数减去对应各相应行数,获取在各其他目标文件中对应的第二行数;将所述在各其他目标文件中对应的第二行数,以所述第一行数为基准进行归一化处理,获取重新计算的其他目标文件相对应第一种目标文件的行数比。可选的,所述按照在第一种目标文件中的行数确定所述目标在其他目标文件的相应行数,包括:按照在第一种目标文件中的行数和对应的行数比,计算所述目标在其他目标文件的相应行数。可选的,所述在其他目标文件的相应行数查找所述目标,包括:查找其他目标文件的相应行数,检测所述相应行数上存储的是否是所述目标;若所述相应行数上存储的不是所述目标,则在所述相应行数的相邻行数上查找所述目标,直到查找到所述目标为止。可选的,所述目标文件中存储有各目标的标识信息,所述标识信息用于唯一标识一个目标;所述查找其他目标文件的相应行数,检测所述相应行数上存储的是否是所述目标,包括:查找其他目标文件的相应行数,并获取所述相应行数上存储的目标的标识信息;检测所述相应行数上存储的目标的标识信息,与所述目标的标识信息是否匹配;若匹配,则所述相应行数上存储的是所述目标;若不匹配,则所述相应行数上存储的不是所述目标。可选的,所述在所述相应行数的相邻行数上查找所述目标,包括:检测所述相应行数上存储的目标的标识信息,是否大于所述目标的标识信息;若大于所述目标的标识信息,则在其他目标文件中所述相应行数之前的行数上查找所述目标;若小于所述目标的标识信息,则在其他目标文件中所述相应行数之后的行数上查找所述目标。相应的,本专利技术实施例还提供了一种数据处理装置,包括: 获取模块,用于获取η种目标文件,其中,所述目标文件用于存储各个目标的描述信息,一种目标文件存储一种类型的描述信息,η为正整数;遍历并获取模块,用于对第一种目标文件进行遍历,并依次获取所述第一种目标文件中的目标,对应类型的描述信息,以及所述目标在第一种目标文件中的行数;查找并获取模块,用于按照在第一种目标文件中的行数确定所述目标在其他目标文件的相应行数,并依次在其他目标文件的相应行数查找所述目标,并获取对应类型的描述信息,其中,所述其他目标文件是除第一种目标文件以外的η-1种目标文件;组成模块,用于将所述目标和对应各类型的描述信息进行关联,构成总目标文件。可选的,所述的装置还包括:行数比计算模块,用于获取每种目标文件的总行数,并将其他目标文件的总行数,以第一种目标文件的总行数为基准进行归一化处理,获取其他目标文件相对应第一种目标文件的行数比。与现有技术相比,本专利技术包括以下优点:首先,可以在遍历第一种目标文件以获取目标和对应类型的描述信息时,获取目标在第一种目标文件中的行数,从而确定所述目标在其他目标文件的相应行数,所述相应行数可以用于快速的确定目标在其他目标文件中的位置。再依次在其他目标文件的相应行数查找所述目标,并获取对应类型的描述信息,从而将所述目标和η种类型的描述信息构成总目标文件。因此本专利技术实施例所提供的方法可以快速的查找到各目标文件中目标的描述信息,方法简单并且效率较高。其次,本专利技术实施例可以预先依据每种目标文件的总行数,计算出其他目标文件相对应第一种目标文件的行数比,从而依据所述行数比计算相应行数,进而可以快速的定位目标在其他文件中的位置,有利于提高查找的效率。再次,本专利技术实施例还在查找过程中调整行数比,即当所述目标在第一种目标文件中的行数达到预设条件时,重新计算所述行数比,从而提高对目标在其他目标文件中的位置的定位精度,进一步提高查找的效率。再次,本专利技术实施例依据相应行数查找到其他目标文件上的目标后,还可以依据目标的标识信息确定其是否是所述目标,若不是所述目标,在依据对标识信息的比较,可以定位所述目标在所述相应行数的上或下的位置上,从而可以快速的查找到所述目标,提高查找的效率。附图说明图1是本专利技术实施例所述一种数据处理方法流程图;图2是本专利技术实施例所述重新计算所述行数比的方法流程图;图3是本专利技术实施例所述其他目标文件中目标的查找方法流程图;图4是本专利技术实施例所述数据处理装置结构图。具体实施例方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。一个目标可能含有多种不同类型的描述信息,而由于不同类型的描述信息是由不同的处理方法得到的,因此会对各类型的描述信息分别进行存储,即存储于不同的目标文件中。例如,目标为网站,通过网络中各网站的浏览数据进行统计、分析等处理操作,确定网站的η种描述信息构成η种目标文件。其中,一种目标文件存储一种类型的描述信息,而每种目标文件中都存有各网站(目标)的描述信息。所述描述信息可以包括:点击率(Page View, PV) /独立用户(UniqueVisitor,UV),访问时间和访问数据等。其中,PV/UV,访问时间和访问数据等分别代表一种类型本文档来自技高网...

【技术保护点】
一种数据处理方法,其特征在于,包括:获取n种目标文件,其中,所述目标文件用于存储各个目标的描述信息,一种目标文件存储一种类型的描述信息,n为正整数;对第一种目标文件进行遍历,并依次获取所述第一种目标文件中的目标,对应类型的描述信息,以及所述目标在第一种目标文件中的行数;按照在第一种目标文件中的行数确定所述目标在其他目标文件的相应行数,并依次在其他目标文件的相应行数查找所述目标,并获取对应类型的描述信息,其中,所述其他目标文件是除第一种目标文件以外的n?1种目标文件;将所述目标和对应各类型的描述信息进行关联,构成总目标文件。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括: 获取η种目标文件,其中,所述目标文件用于存储各个目标的描述信息,一种目标文件存储一种类型的描述信息,η为正整数; 对第一种目标文件进行遍历,并依次获取所述第一种目标文件中的目标,对应类型的描述信息,以及所述目标在第一种目标文件中的行数; 按照在第一种目标文件中的行数确定所述目标在其他目标文件的相应行数,并依次在其他目标文件的相应行数查找所述目标,并获取对应类型的描述信息,其中,所述其他目标文件是除第一种目标文件以外的η-1种目标文件; 将所述目标和对应各类型的描述信息进行关联,构成总目标文件。2.根据权利要求1所述的方法,其特征在于,所述获取η种目标文件之后,还包括: 获取每种目标文件的总行数,并将其他目标文件的总行数,以第一种目标文件的总行数为基准进行归一化处理,获取其他目标文件相对应第一种目标文件的行数比。3.根据权利要求2所述的方法,其特征在于,还包括: 当所述目标在第一种目标文件中的行数达到预设条件时,重新计算所述行数比。4.根据权利要求3所述的方法,其特征在于,所述重新计算所述行数比,包括: 将第一种目标文件的总行数减去所述目标在第一种目标文件中的行数,获取对应的第一行数; 获取所述目标在各其他目标文件中的各相应行数,并将各其他目标文件的总行数减去对应各相应行数,获取在各其他目标文件中对应的第二行数; 将所述在各其他目标文件中对应的第二行数,以所述第一行数为基准进行归一化处理,获取重新计算的其他目标文件相对应第一种目标文件的行数比。5.根据权利要求2或4任一所述的方法,其特征在于,所述按照在第一种目标文件中的行数确定所述目标在其他目标文件的相应行数,包括: 按照在第一种目标文件中的行数和对应的行数比,计算所述目标在其他目标文件的相应行数。6.根据权利要求5所述的方法,其特征在于,所述在其他目标文件的相应行数查找所述目标,包括: 查找其他目标文件的相应行数,检测所述相应行数上存储的是否是所述目标; 若所述相...

【专利技术属性】
技术研发人员:罗峰黄苏支李娜
申请(专利权)人:北京亿赞普网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1