数据处理的方法、装置和设备制造方法及图纸

技术编号：13506922 阅读：37 留言：0更新日期：2016-08-10 15:46

一种数据处理的方法、装置和设备，该方法包括：根据相似度阈值j和目标数据，生成第一数据集合，目标数据包括T1个第一比特组，第一数据集合包括M1个第一数据，M1个第一数据与从T1个第一比特组中选取j个第一比特组时的M1种组合方式一一对应；根据j和N个预存数据，生成N个第二数据集合；N个预存数据与N个第二数据集合一一对应，每个预存数据包括T2个第二比特组，每个第二数据集合包括M2个第二数据，第i个第二数据集合中的每个第二数据包括第i个预存数据中的T2个第二比特组，第i个第二数据集合中的M2个第二数据与从T2个第二比特组中选取j个第二比特组时的M2种组合方式一一对应；根据第一数据集合和第二数据集合，从N个预存数据中确定第一预存数据，能够降低相似数据查找过程的复杂度。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】一种数据处理的方法、装置和设备，该方法包括：根据相似度阈值j和目标数据，生成第一数据集合，目标数据包括T1个第一比特组，第一数据集合包括M1个第一数据，M1个第一数据与从T1个第一比特组中选取j个第一比特组时的M1种组合方式一一对应；根据j和N个预存数据，生成N个第二数据集合；N个预存数据与N个第二数据集合一一对应，每个预存数据包括T2个第二比特组，每个第二数据集合包括M2个第二数据，第i个第二数据集合中的每个第二数据包括第i个预存数据中的T2个第二比特组，第i个第二数据集合中的M2个第二数据与从T2个第二比特组中选取j个第二比特组时的M2种组合方式一一对应；根据第一数据集合和第二数据集合，从N个预存数据中确定第一预存数据，能够降低相似数据查找过程的复杂度。【专利说明】数据处理的方法、装置和设备
本专利技术涉及数据信息
，并且更具体地，涉及数据处理的方法、装置和设备。
技术介绍
相似检测技术广泛应用于互联网，图像识别，大数据分析和数据缩减等信息技术 (IT，Information Technology)领域。相似数据查找是相似检测技术中的重要环节。随着对查找精度和智能性的要求，目前，该相似数据查找的输出结果需要是"相似"的数据，即，假设所处理的数据包括α个字节(Byte)，则所输出的"相似"的数据之间有β (β<α)个字节相同。其中，β可以是管理员或者系统规定的相似度阈值。如何降低相似数据查找过程的复杂度，成为业界亟需解决的问题。
技术实现思路
本专利技术实施例提供一种数据处理的方法、装置和设备，能够降低相似数据查...

【技术保护点】
一种数据处理的方法，其特征在于，所述方法包括：根据预设的相似度阈值j和目标数据，生成第一数据集合，其中，所述目标数据包括T1个第一比特组，每个第一比特组包括k比特，所述第一数据集合包括M1个第一数据，所述M1个第一数据与从所述T1个第一比特组中选取j个第一比特组时的M1种组合方式一一对应，T1≥2，k≥1，T1＞j≥1；根据所述相似度阈值j和N个预存数据，生成N个第二数据集合，其中，所述N个预存数据与所述N个第二数据集合一一对应，每个预存数据包括T2个第二比特组，每个第二比特组包括k比特，每个第二数据集合包括M2个第二数据，第i个第二数据集合中的每个第二数据包括第i个预存数据中的T2个第二比特组，第i个第二数据集合中的M2个第二数据与从所述T2个第二比特组中选取j个第二比特组时的M2种组合方式一一对应，N≥1，T2≥T1，i∈[1，N]；根据所述第一数据集合和所述第二数据集合，从所述N个预存数据中确定第一预存数据，所述第一预存数据和所述目标数据之间相似度与所述相似度阈值j相对应，其中，所述第一预存数据所对应的第二数据集合与所述第一数据集合之间包括至少一个相同的数据。

【技术特征摘要】

【专利技术属性】
技术研发人员：冷继南，丹尼斯·帕尔霍缅科，牛进保，沈建强，王工艺，伊万·马祖连科，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人