The invention belongs to the field of data statistics technology, in particular to a method and device for data De duplication. The method of data removal of the present invention includes: constructing the longest common substring table according to the acquired target data; extracting the longest common substring of two data that need to be weighed, and comparing the longest common substring with the substring of the longest common substring table; if the longest common substring table does not exist The substring that is the same as the longest common substring is reprocessed to the two data. The method and device of the data Deweighting of the invention do not need to update the data in the table frequently, reduce the amount of data storage, and improve the efficiency of data comparison during the process of weight removal.
【技术实现步骤摘要】
数据去重的方法及装置
本专利技术涉及数据统计
,具体涉及一种数据去重的方法及装置。
技术介绍
移动应用商店上架的应用可能存在重复的问题,有去重的需求;或者在对不同移动应用商店的应用进行数据分析时,也需要对相同的应用进行去重处理。同一款应用会存在多个名称的问题。例如,同一款应用,在不同时间段会采用不同的名称,如视频应用软件会将最近热播剧的名字添加到应用名中。又例如,同一款应用,在不同应用商店可能会使用不同的名称,如腾讯QQ、QQ。当然还有其他情况导致同一款应用的名称不完全相同。不同应用也会存在名称相似(存在相同字段)的问题。例如,百度与百度地图是两个不同的应用,但存在相同的字段(百度)。现有的一种去重方式是建立基础表,在基础表中会记录同一款应用的各种不同名称,通过查表来实现去重。这种处理方式需要频繁更新基础表才能保证去重的准确性。应当指出的是,以上仅是一种典型的应用。对于其他数据去重的应用,也可能会存在类似的问题。
技术实现思路
针对现有技术中的缺陷,本专利技术提供的数据去重的方法及装置,不需要频繁更新表中数据,减少了数据存储量,提高了去重过程中数据比对效率。第一方面,本专利技术提供的一种数据去重的方法,包括:根据获取的目标数据构建最长公共子串表;提取两个需要进行去重判断的数据的最长公共子串,并将所述最长公共子串与所述最长公共子串表中的子串进行比较;若所述最长公共子串表中不存在与所述最长公共子串相同的子串,则对两个所述数据进行去重处理。本专利技术提供的数据去重的方法,在初期建立完最长公共子串表后,对于新产生的数据可根据最长公共子串表实现去重判断,不需要存储 ...
【技术保护点】
1.一种数据去重的方法,其特征在于,包括:根据获取的目标数据构建最长公共子串表;提取两个需要进行去重判断的数据的最长公共子串,并将所述最长公共子串与所述最长公共子串表中的子串进行比较;若所述最长公共子串表中不存在与所述最长公共子串相同的子串,则对两个所述数据进行去重处理。
【技术特征摘要】
1.一种数据去重的方法,其特征在于,包括:根据获取的目标数据构建最长公共子串表;提取两个需要进行去重判断的数据的最长公共子串,并将所述最长公共子串与所述最长公共子串表中的子串进行比较;若所述最长公共子串表中不存在与所述最长公共子串相同的子串,则对两个所述数据进行去重处理。2.根据权利要求1所述的方法,其特征在于,所述根据获取的目标数据构建最长公共子串表,包括:根据获取的目标数据形成多个数据集合,每个数据集合对应一个最大公共子串;检测每个数据集合中的目标数据指代的对象是否相同,若不相同,则将该数据集合对应的最大公共子串存入最大公共子串表。3.根据权利要求2所述的方法,其特征在于,根据获取的目标数据形成多个数据集合,每个数据集合对应一个最大公共子串,包括:对获取的目标数据进行两两比对,提取最长公共子串;将具有相同最长公共子串的应用放入同一数据集合,所述相同最长公共子串为所述数据集合对应的最大公共子串。4.根据权利要求1所述的方法,其特征在于,所述提取两个需要进行去重判断的数据的最长公共子串,包括:逐个比较两个需要进行去重判断的数据中相同位置的字符,若比较的字符相同,则继续比较下一个字符,直到比较的字符不同为止,提取出相同的字符为最长公共子串。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述目标数据和所述数据均为应用的应用名称。6.一种数据去重的装置,其特征在于,包括...
【专利技术属性】
技术研发人员:路博,王跃,方诗旭,张育雄,郭丽,杨小燕,刘艺,
申请(专利权)人:工业和信息化部电信研究院,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。