数据去重的方法及装置制造方法及图纸

技术编号:18444888 阅读:30 留言:0更新日期:2018-07-14 10:22
本发明专利技术属于数据统计技术领域,具体涉及一种数据去重的方法及装置。本发明专利技术的数据去重的方法包括:根据获取的目标数据构建最长公共子串表;提取两个需要进行去重判断的数据的最长公共子串,并将所述最长公共子串与所述最长公共子串表中的子串进行比较;若所述最长公共子串表中不存在与所述最长公共子串相同的子串,则对两个所述数据进行去重处理。本发明专利技术的数据去重的方法及装置,不需要频繁更新表中数据,减少了数据存储量,提高了去重过程中数据比对效率。

Method and device for data weight removal

The invention belongs to the field of data statistics technology, in particular to a method and device for data De duplication. The method of data removal of the present invention includes: constructing the longest common substring table according to the acquired target data; extracting the longest common substring of two data that need to be weighed, and comparing the longest common substring with the substring of the longest common substring table; if the longest common substring table does not exist The substring that is the same as the longest common substring is reprocessed to the two data. The method and device of the data Deweighting of the invention do not need to update the data in the table frequently, reduce the amount of data storage, and improve the efficiency of data comparison during the process of weight removal.

【技术实现步骤摘要】
数据去重的方法及装置
本专利技术涉及数据统计
,具体涉及一种数据去重的方法及装置。
技术介绍
移动应用商店上架的应用可能存在重复的问题,有去重的需求;或者在对不同移动应用商店的应用进行数据分析时,也需要对相同的应用进行去重处理。同一款应用会存在多个名称的问题。例如,同一款应用,在不同时间段会采用不同的名称,如视频应用软件会将最近热播剧的名字添加到应用名中。又例如,同一款应用,在不同应用商店可能会使用不同的名称,如腾讯QQ、QQ。当然还有其他情况导致同一款应用的名称不完全相同。不同应用也会存在名称相似(存在相同字段)的问题。例如,百度与百度地图是两个不同的应用,但存在相同的字段(百度)。现有的一种去重方式是建立基础表,在基础表中会记录同一款应用的各种不同名称,通过查表来实现去重。这种处理方式需要频繁更新基础表才能保证去重的准确性。应当指出的是,以上仅是一种典型的应用。对于其他数据去重的应用,也可能会存在类似的问题。
技术实现思路
针对现有技术中的缺陷,本专利技术提供的数据去重的方法及装置,不需要频繁更新表中数据,减少了数据存储量,提高了去重过程中数据比对效率。第一方面,本专利技术提供的一种数据去重的方法,包括:根据获取的目标数据构建最长公共子串表;提取两个需要进行去重判断的数据的最长公共子串,并将所述最长公共子串与所述最长公共子串表中的子串进行比较;若所述最长公共子串表中不存在与所述最长公共子串相同的子串,则对两个所述数据进行去重处理。本专利技术提供的数据去重的方法,在初期建立完最长公共子串表后,对于新产生的数据可根据最长公共子串表实现去重判断,不需要存储每个应用的不同名称,减少了数据存储量,且不需要频繁更新表;由于只需要与最长公共子串表中的数据进行比较,减少了比对的数据量,提高了比对效率。优选地,所述根据获取的目标数据构建最长公共子串表,包括:根据获取的目标数据形成多个数据集合,每个数据集合对应一个最大公共子串;检测每个数据集合中的目标数据指代的对象是否相同,若不相同,则将该数据集合对应的最大公共子串存入最大公共子串表。优选地,根据获取的目标数据形成多个数据集合,每个数据集合对应一个最大公共子串,包括:对获取的目标数据进行两两比对,提取最长公共子串;将具有相同最长公共子串的应用放入同一数据集合,所述相同最长公共子串为所述数据集合对应的最大公共子串。优选地,所述提取两个需要进行去重判断的数据的最长公共子串,包括:逐个比较两个需要进行去重判断的数据中相同位置的字符,若比较的字符相同,则继续比较下一个字符,直到比较的字符不同为止,提取出相同的字符为最长公共子串。优选地,所述目标数据和所述数据均为应用的应用名称。第二方面,本专利技术提供的一种数据去重的装置,包括:最长公共子串表构建模块,用于根据获取的目标数据构建最长公共子串表;去重判断模块,用于提取两个需要进行去重判断的数据的最长公共子串,并将所述最长公共子串与所述最长公共子串表中的子串进行比较,若所述最长公共子串表中不存在与所述最长公共子串相同的子串,则对两个所述数据进行去重处理。本专利技术提供的数据去重的装置,在初期建立完最长公共子串表后,对于新产生的数据可根据最长公共子串表实现去重判断,不需要存储每个应用的不同名称,减少了数据存储量,且不需要频繁更新表;由于只需要与最长公共子串表中的数据进行比较,减少了比对的数据量,提高了比对效率。优选地,所述最长公共子串表构建模块具体用于:根据获取的目标数据形成多个数据集合,每个数据集合对应一个最大公共子串;检测每个数据集合中的目标数据指代的对象是否相同,若不相同,则将该数据集合对应的最大公共子串存入最大公共子串表。优选地,所述最长公共子串表构建模块中,根据获取的目标数据形成多个数据集合,每个数据集合对应一个最大公共子串,包括:对获取的目标数据进行两两比对,提取最长公共子串;将具有相同最长公共子串的应用放入同一数据集合,所述相同最长公共子串为所述数据集合对应的最大公共子串。优选地,所述去重判断模块中,提取两个需要进行去重判断的数据的最长公共子串,包括:逐个比较两个需要进行去重判断的数据中相同位置的字符,若比较的字符相同,则继续比较下一个字符,直到比较的字符不同为止,提取出相同的字符为最长公共子串。优选地,所述目标数据和所述数据均为应用的应用名称。附图说明图1为本专利技术实施例所提供的数据去重的方法的流程图;图2为本专利技术实施例所提供的数据去重的装置的结构框图。具体实施方式下面将结合附图对本专利技术技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,因此只是作为示例,而不能以此来限制本专利技术的保护范围。需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本专利技术所属领域技术人员所理解的通常意义。如图1所示,本实施例提供了一种数据去重的方法,包括:步骤S1,根据获取的目标数据构建最长公共子串表。其中,目标数据为字符串格式,每个目标数据指代一个对象。例如,对象为应用,则目标数据可以是应用的名称。最长公共子串是指不同的目标数据中长度最长的相同字段,该字段在目标数据中应为连续不间断的。以应用的名称为例,“百度”与“百度地图”之间的最长公共子串是“百度”,“百度地图”与“百度地图导航”之间的最长公共子串是“百度地图”。其中,最长公共子串表用于存储最长公共子串,存入最长公共子串表中的最长公共子串至少对应了两个不同的对象。例如,“百度地图”与“百度地图导航”之间的最长公共子串是“百度地图”,因为“百度地图”与“百度地图导航”为两个不同的应用,所以最长公共子串“百度地图”存入最长公共子串表中;“百度视频鬼吹灯”与“百度视频甄嬛传”之间的最长公共子串是“百度视频”,但是“百度视频鬼吹灯”与“百度视频甄嬛传”实际上是一个应用,因此,最长公共子串“百度视频”不会被存入最长公共子串表。步骤S2,提取两个需要进行去重判断的数据的最长公共子串,并将该最长公共子串与最长公共子串表中的子串进行比较;若最长公共子串表中不存在与该最长公共子串相同的子串,则对这两个数据进行去重处理,否则不需要去重。其中,存入最长公共子串表中的最长公共子串至少对应了两个不同的对象。以应用为例,例如两个应用的名称为“百度视频”和“百度视频热门电视剧潜伏”,其最长公共子串为“百度视频”,而“百度视频”在最长公共子串表中不存在,表明“百度视频”和“百度视频热门电视剧潜伏”为同一应用。例如两个应用的名称为“百度外卖”和“百度文库”,其最长公共子串为“百度”,在最长公共子串表中存在,所以“百度外卖”和“百度文库”为不同的应用。现有的去重方式是建立基础表,在基础表中会记录同一对象的各种不同名称,通过查表来实现去重。现有的处理方式需要频繁更新基础表才能保证去重的准确性。而本实施例提供的数据去重的方法,在初期建立完最长公共子串表后,对于新产生的数据可根据最长公共子串表实现去重判断,不需要存储每个应用的不同名称,减少了数据存储量,且不需要频繁更新表;由于只需要与最长公共子串表中的数据进行比较,减少了比对的数据量,提高了比对效率。尤其对同一款应用因不同时期的宣传需要,对名称进行修改的情况,本实施例提供的数据去重的方法尤为有效。其中,在步骤S1前,还需要对于目标数据进行筛选。本文档来自技高网...

【技术保护点】
1.一种数据去重的方法,其特征在于,包括:根据获取的目标数据构建最长公共子串表;提取两个需要进行去重判断的数据的最长公共子串,并将所述最长公共子串与所述最长公共子串表中的子串进行比较;若所述最长公共子串表中不存在与所述最长公共子串相同的子串,则对两个所述数据进行去重处理。

【技术特征摘要】
1.一种数据去重的方法,其特征在于,包括:根据获取的目标数据构建最长公共子串表;提取两个需要进行去重判断的数据的最长公共子串,并将所述最长公共子串与所述最长公共子串表中的子串进行比较;若所述最长公共子串表中不存在与所述最长公共子串相同的子串,则对两个所述数据进行去重处理。2.根据权利要求1所述的方法,其特征在于,所述根据获取的目标数据构建最长公共子串表,包括:根据获取的目标数据形成多个数据集合,每个数据集合对应一个最大公共子串;检测每个数据集合中的目标数据指代的对象是否相同,若不相同,则将该数据集合对应的最大公共子串存入最大公共子串表。3.根据权利要求2所述的方法,其特征在于,根据获取的目标数据形成多个数据集合,每个数据集合对应一个最大公共子串,包括:对获取的目标数据进行两两比对,提取最长公共子串;将具有相同最长公共子串的应用放入同一数据集合,所述相同最长公共子串为所述数据集合对应的最大公共子串。4.根据权利要求1所述的方法,其特征在于,所述提取两个需要进行去重判断的数据的最长公共子串,包括:逐个比较两个需要进行去重判断的数据中相同位置的字符,若比较的字符相同,则继续比较下一个字符,直到比较的字符不同为止,提取出相同的字符为最长公共子串。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述目标数据和所述数据均为应用的应用名称。6.一种数据去重的装置,其特征在于,包括...

【专利技术属性】
技术研发人员:路博王跃方诗旭张育雄郭丽杨小燕刘艺
申请(专利权)人:工业和信息化部电信研究院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1