数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号:24517516 阅读:17 留言:0更新日期:2020-06-17 06:46
本申请公开了一种数据处理方法、装置、设备及存储介质,涉及计算机技术领域。该方法包括:获取待检测文件;提取所述待检测文件的文件内容的语义特征;计算所述语义特征的目标哈希码;在哈希码数据库中查找所述目标哈希码;所述哈希码数据库预先记录有已存储文件的语义特征的哈希码;在查找到所述目标哈希码的情况下,将所述待检测文件标记为重复文件。根据本申请实施例,能够提高重复性检测效果。

【技术实现步骤摘要】
数据处理方法、装置、设备及存储介质
本申请属于计算机
,尤其涉及一种数据处理方法、装置、设备及存储介质。
技术介绍
随着互联网的快速发展,各行业的数据量呈爆炸式增长,这给现有的数据存储系统带来了极大的挑战。为了充分利用存储资源,在存储文件之前,可以对文件进行重复性检测,即检测该文件是否已存储在数据存储系统中。如果数据存储系统中已存储有该文件,则可以将该文件标记为重复文件,然后通过建立该文件与已存储的同一文件的地址映射关系的方式,对该文件进行名义存储,无需再消耗存储资源来存储该文件。通常采用对整个文件进行哈希处理的方式,对文件进行重复性检测。然而,对于内容实质相同的两个文件,例如,视频内容相同但清晰度不同的两个视频文件,或者,图片内容相同但压缩格式不同的两个图片文件,在对整个文件进行哈希处理后,将会得出文件不重复的检测结果,重复性检测效果较差。
技术实现思路
本申请实施例提供一种数据处理方法、装置、设备及存储介质,以解决重复性检测效果较差的问题。为了解决上述技术问题,本申请是这样实现的:第一方面,本申请实施例提供了一种数据处理方法,包括:获取待检测文件;提取所述待检测文件的文件内容的语义特征;计算所述语义特征的目标哈希码;在哈希码数据库中查找所述目标哈希码;所述哈希码数据库预先记录有已存储文件的语义特征的哈希码;在查找到所述目标哈希码的情况下,将所述待检测文件标记为重复文件。第二方面,本申请实施例提供了一种数据处理装置,包括:获取模块,用于获取待检测文件;提取模块,用于提取所述待检测文件的文件内容的语义特征;计算模块,用于计算所述语义特征的目标哈希码;查找模块,用于在哈希码数据库中查找所述目标哈希码;所述哈希码数据库预先记录有已存储文件的语义特征的哈希码;标记模块,用于在查找到所述目标哈希码的情况下,将所述待检测文件标记为重复文件。第三方面,本申请实施例提供了一种检测设备,包括:处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现如第一方面所述的数据处理方法。第四方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如第一方面所述的数据处理方法。相较于现有技术,本申请具有以下有益效果:在本申请实施例中,通过文件的哈希码,来检测文件是否为内容实质相同的文件,由于哈希码是基于文件的语义特征生成的,而文件的语义特征能够对文件内容是否实质相同进行区分,因此,通过文件的哈希码,能够准确地检测出内容实质相同的文件,极大地提高了重复性检测的效果。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请一个实施例提供的应用场景示意图;图2是本申请另一个实施例提供的数据处理方法的流程示意图;图3是本申请另一个实施例提供的数据处理方法的流程示意图;图4是本申请另一个实施例提供的数据处理装置的结构示意图;图5是本申请又一个实施例提供的检测设备的结构示意图。具体实施方式下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本申请,并不被配置为限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。随着互联网的快速发展,各行业的数据量呈爆炸式增长,这给现有的数据存储系统带来了极大的挑战。为了充分利用存储资源,在存储文件之前,可以对文件进行重复性检测,即检测该文件是否已存储在数据存储系统中。如果数据存储系统中已存储有该文件,则可以将该文件标记为重复文件,然后通过建立该文件与已存储的同一文件的地址映射关系的方式,对该文件进行名义存储,无需再消耗存储资源来存储该文件。在现有的存储系统中,包括中心化存储系统以及以区块链技术为支撑的去中心化存储系统,通常采用对整个文件进行哈希处理的方式,进行文件重复性检测。然而,对于内容实质相同的两个文件,例如,视频内容相同但清晰度不同的两个视频文件,或者,图片内容相同但压缩格式不同的两个图片文件,在对整个文件进行哈希处理后,将会得出文件不重复的检测结果,重复性检测效果较差。为了解决现有技术问题,本申请实施例提供了一种数据处理方法、装置、设备及存储介质。下面首先对本申请实施例所提供的数据处理方法进行介绍。数据处理方法的执行主体,可以是用于进行重复性检测的检测设备,该检测设备可以是一台服务器,也可以是由多台服务器组成的服务集群。检测设备可以部署于中心化存储系统或者去中心化存储系统的机房。应用场景图可以如图1所示,检测设备100可以从待检测文件中提取出语义特征,然后基于语义特征的哈希码,来对待检测文件进行重复性检测。如果未通过重复性检测,则标记待检测文件为重复文件;如果通过重复性检测,则标记待检测文件为非重复文件。如图2所示,本申请实施例提供的数据处理方法包括以下步骤:S201、获取待检测文件。S202、提取待检测文件的文件内容的语义特征。S203、计算语义特征的目标哈希码。S204、在哈希码数据库中查找目标哈希码;哈希码数据库预先记录有已存储文件的语义特征的哈希码。S205、在查找到目标哈希码的情况下,将待检测文件标记为重复文件。上述各步骤的具体实现方式将在下文中进行详细描述。在本申请实施例中,通过文件的哈希码,来检测文件是否为内容实质相同的文件,由于哈希码是基于文件的语义特征生成的,而文件的语义特征能够对文件内容是否实质相同进行区分,因此,通过文件的哈希码,能够准确地检测出内容实质相同的文件,极大地提高了重复性检测的效果。下面介绍上述各个步骤的具体实现方式。首先介绍S101。在一个示例实施例中,检测设备可以通过接收由其它设备发送的文件的方式,获取到待检测文件;检本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:/n获取待检测文件;/n提取所述待检测文件的文件内容的语义特征;/n计算所述语义特征的目标哈希码;/n在哈希码数据库中查找所述目标哈希码;所述哈希码数据库预先记录有已存储文件的语义特征的哈希码;/n在查找到所述目标哈希码的情况下,将所述待检测文件标记为重复文件。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:
获取待检测文件;
提取所述待检测文件的文件内容的语义特征;
计算所述语义特征的目标哈希码;
在哈希码数据库中查找所述目标哈希码;所述哈希码数据库预先记录有已存储文件的语义特征的哈希码;
在查找到所述目标哈希码的情况下,将所述待检测文件标记为重复文件。


2.根据权利要求1所述的方法,其特征在于,所述提取所述待检测文件的文件内容的语义特征,包括:
根据所述待检测文件的文件格式,确定所述待检测文件的文件类型;
采用所述文件类型对应的特征提取方式,提取所述待检测文件的文件内容的语义特征。


3.根据权利要求2所述的方法,其特征在于,所述采用所述文件类型对应的特征提取方式,提取所述待检测文件的文件内容的语义特征,包括:
当所述文件类型为文本类型时,提取所述待检测文件的文本数据的文本特征;
当所述文件类型为图片类型时,提取所述待检测文件的图像数据的图片特征;
当所述文件类型为音频类型时,提取所述待检测文件的音频数据的音频特征;
当所述文件类型为视频类型时,提取所述待检测文件的视频数据的视频特征。


4.根据权利要求3所述的方法,其特征在于,所述提取所述待检测文件的文本数据的文本特征,包括:
对所述待检测文件的文本数据进行分词处理,得到多个关键词;
统计每个所述关键词的词频;
提取词频符合第一预设条件的关键词,作为所述文本特征。


5.根据权利要求3所述的方法,其特征在于,所述提取所述待检测文件的图像数据的图片特征,包括:
对所述待检测文件的图像数据依次进行压缩处理、灰度化处理、离散余弦变换处理,得到多个图像维度特征;
统计每个所述图像维度特征的方差;
提取方差符合第二预设条件的图像维度特征,作为所述图片特征。


6.根据权利要求3所述的方法,其特征在于,所述提取所述待检测文件的音频...

【专利技术属性】
技术研发人员:许超逸贺乔来黄峤濛任艳多贺昭仪
申请(专利权)人:上海哈世科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1