一种样本查找方法及装置制造方法及图纸

技术编号:18445135 阅读:55 留言:0更新日期:2018-07-14 10:28
本申请提供了一种样本查找方法及装置,方法包括:将待查样本输入预先训练的神经网络模型,得到神经网络模型输出的映射值;在一级映射表中查找与映射值对应的值,作为一级映射结果;在二级映射表中查找与一级映射结果对应的值,作为二级映射结果;若二级映射结果为‑1,则确定样本集合中不存在待查样本;若二级映射结果为有效哈希值,则确定样本集合中存在待查样本。在本申请中,通过以上方式可以提高查找效率。

A method and device for sample lookup

The application provides a sample search method and device. The method includes: input the sample into a pre trained neural network model, get the mapping value of the output of the neural network model, find the value corresponding to the mapping value in the first level mapping table, as the first order mapping result, and find the first mappings in the two level mapping table. The corresponding value of the fruit is the result of the two level mapping; if the result of the two level mapping is 1, the sample set does not exist in the sample set; if the result of the two level mapping is a valid hash value, there is a sample set in the sample set. In this application, the search efficiency can be improved through the above methods.

【技术实现步骤摘要】
一种样本查找方法及装置
本申请涉及数据处理
,特别涉及一种样本查找方法及装置。
技术介绍
数据处理相关工作中,数据查找往往占据着比较重要的位置。常用地,可以采用树形结构进行数据查找,但是目前树形结构中节点间存在较多冲突,导致数据查找过程中需要进行更多次数的比较,查找效率低。
技术实现思路
为解决上述技术问题,本申请实施例提供一种样本查找方法及装置,以达到提高查找效率的目的,技术方案如下:一种样本查找方法,包括:将待查样本输入预先训练的神经网络模型,得到所述神经网络模型输出的映射值,所述神经网络模型为利用训练样本及任意两个输出结果之间的差值不小于1的训练目标训练得到;在一级映射表中查找与所述映射值对应的值,作为一级映射结果;在二级映射表中查找与所述一级映射结果对应的值,作为二级映射结果;若所述二级映射结果为-1,则确定样本集合中不存在所述待查样本;若所述二级映射结果为有效哈希值,则确定所述样本集合中存在所述待查样本。优选的,所述确定所述样本集合中存在所述待查样本之前,还包括:在三级映射表中查找与所述有效哈希值对应的样本,作为三级映射结果;比较所述三级映射结果与所述待查样本是否相同;若所述三级映射结果与所述待查样本相同,则确定所述样本集合中存在所述待查样本。优选的,所述神经网络模型的训练过程,包括:将各个训练样本及各个所述训练样本各自对应的权重输入神经网络模型,得到所述神经网络模型输出的各个所述训练样本与各自对应权重的乘积,作为各个所述训练样本的映射值;对各个所述训练样本的映射值进行排序,排序后的得到有序输出值组;计算排序后的各个所述训练样本的映射值中任意两个相邻映射值的差值;若所述任意两个相邻映射值的差值小于1,则对所述任意两个相邻映射值的差值小于1的映射值对应的训练样本的权重进行调整,并返回执行将各个训练样本及各个所述训练样本各自对应的权重输入神经网络模型的步骤,直至排序后的各个所述训练样本的映射值中任意两个相邻映射值的差值均不小于1。优选的,所述对所述任意两个相邻映射值的差值小于1的映射值对应的训练样本的权重进行调整,包括:对所述任意两个相邻映射值的差值小于1,且所述任意两个相邻映射值的差值最小的映射值对应的训练样本的权重进行调整。优选的,所述一级映射表的确定过程,包括:对所述神经网络模型输出的各个所述训练样本的映射值进行取整运算,得到各个所述训练样本的第一整数映射值;对各个所述训练样本的第一整数映射值进行排序;从排序后的各个所述训练样本的第一整数映射值中确定最小整数映射值和最大整数映射值;将各个所述训练样本的第一整数映射值减去所述最小整数映射值,得到各个所述训练样本的第二整数映射值;将各个所述训练样本的第二整数映射值及各个所述训练样本组成映射表,作为所述一级映射表。优选的,所述二级映射表的确定过程,包括:将所述一级映射表中的各个所述第二整数映射值依次映射为1至N中的数值,作为K个二级映射元素中与所述一级映射表存在映射关系的二级映射元素的有效哈希值,所述N为大于1的整数;将K个所述二级映射元素中与所述一级映射表不存在映射关系的二级映射元素的值映射为-1,得到所述二级映射表,所述K为大于所述N的整数。优选的,所述三级映射表的确定过程,包括:将所述二级映射表中的有效哈希值依次映射为对应的样本,得到所述三级映射表。优选的,所述将待查样本输入预先训练的神经网络模型,包括:将所述待查样本的超长位串属性值输入预先训练的神经网络模型;所述待查样本的超长位串属性值的确定过程,包括:将所述待查样本的各个属性值转换为位串属性值;从各个所述位串属性值中确定出最大的位串属性值;将所述最大的位串属性值对应的位串属性长度作为所述待查样本的定长位串属性长度;按照所述定长位串属性长度,将各个所述位串属性值转换为定长位串属性值;将各个所述定长位串属性值进行连接,得到所述超长位串属性值。一种样本查找装置,包括:第一确定模块,用于将待查样本输入预先训练的神经网络模型,得到所述神经网络模型输出的映射值,所述神经网络模型为利用训练样本及任意两个输出结果之间的差值不小于1的训练目标训练得到;第二确定模块,用于在一级映射表中查找与所述映射值对应的值,作为一级映射结果;第三确定模块,用于在二级映射表中查找与所述一级映射结果对应的值,作为二级映射结果;若所述二级映射结果为-1,则执行第四确定模块,若所述二级映射结果为有效哈希值,则执行第五确定模块;所述第四确定模块,用于确定样本集合中不存在所述待查样本;所述第五确定模块,用于确定所述样本集合中存在所述待查样本。优选的,所述装置还包括:第六确定模块,用于在三级映射表中查找与所述有效哈希值对应的样本,作为三级映射结果;比较模块,用于比较所述三级映射结果与所述待查样本是否相同,若所述三级映射结果与所述待查样本相同,则执行第七确定模块;所述第七确定模块,用于确定所述样本集合中存在所述待查样本。优选的,所述装置还包括:神经网络模型训练模块,用于执行以下步骤:将各个训练样本及各个所述训练样本各自对应的权重输入神经网络模型,得到所述神经网络模型输出的各个所述训练样本与各自对应权重的乘积,作为各个所述训练样本的映射值;对各个所述训练样本的映射值进行排序,排序后的得到有序输出值组;计算排序后的各个所述训练样本的映射值中任意两个相邻映射值的差值;若所述任意两个相邻映射值的差值小于1,则对所述任意两个相邻映射值的差值小于1的映射值对应的训练样本的权重进行调整,并返回执行将各个训练样本及各个所述训练样本各自对应的权重输入神经网络模型的步骤,直至排序后的各个所述训练样本的映射值中任意两个相邻映射值的差值均不小于1。优选的,所述神经网络模型训练模块对所述任意两个相邻映射值的差值小于1的映射值对应的训练样本的权重进行调整的过程,具体包括:对所述任意两个相邻映射值的差值小于1,且所述任意两个相邻映射值的差值最小的映射值对应的训练样本的权重进行调整。优选的,所述装置还包括:一级映射表确定模块,用于执行以下步骤:对所述神经网络模型输出的各个所述训练样本的映射值进行取整运算,得到各个所述训练样本的第一整数映射值;对各个所述训练样本的第一整数映射值进行排序;从排序后的各个所述训练样本的第一整数映射值中确定最小整数映射值和最大整数映射值;将各个所述训练样本的第一整数映射值减去所述最小整数映射值,得到各个所述训练样本的第二整数映射值;将各个所述训练样本的第二整数映射值及各个所述训练样本组成映射表,作为所述一级映射表。优选的,所述装置还包括:二级映射表确定模块,用于执行以下步骤:将所述一级映射表中的各个所述第二整数映射值依次映射为1至N中的数值,作为K个二级映射元素中与所述一级映射表存在映射关系的二级映射元素的有效哈希值,所述N为大于1的整数;将K个所述二级映射元素中与所述一级映射表不存在映射关系的二级映射元素的值映射为-1,得到所述二级映射表,所述K为大于所述N的整数。优选的,所述装置还包括:三级映射表确定模块,用于将所述二级映射表中的有效哈希值依次映射为对应的样本,得到所述三级映射表。优选的,所述第一确定模块将待查样本输入预先训练的神经网络模型的过程,具体包括:将所述待查样本的超长位串属性值输入预先训练的神经网络模型;所述装本文档来自技高网...

【技术保护点】
1.一种样本查找方法,其特征在于,包括:将待查样本输入预先训练的神经网络模型,得到所述神经网络模型输出的映射值,所述神经网络模型为利用训练样本及任意两个输出结果之间的差值不小于1的训练目标训练得到;在一级映射表中查找与所述映射值对应的值,作为一级映射结果;在二级映射表中查找与所述一级映射结果对应的值,作为二级映射结果;若所述二级映射结果为‑1,则确定样本集合中不存在所述待查样本;若所述二级映射结果为有效哈希值,则确定所述样本集合中存在所述待查样本。

【技术特征摘要】
1.一种样本查找方法,其特征在于,包括:将待查样本输入预先训练的神经网络模型,得到所述神经网络模型输出的映射值,所述神经网络模型为利用训练样本及任意两个输出结果之间的差值不小于1的训练目标训练得到;在一级映射表中查找与所述映射值对应的值,作为一级映射结果;在二级映射表中查找与所述一级映射结果对应的值,作为二级映射结果;若所述二级映射结果为-1,则确定样本集合中不存在所述待查样本;若所述二级映射结果为有效哈希值,则确定所述样本集合中存在所述待查样本。2.根据权利要求1所述的方法,其特征在于,所述确定所述样本集合中存在所述待查样本之前,还包括:在三级映射表中查找与所述有效哈希值对应的样本,作为三级映射结果;比较所述三级映射结果与所述待查样本是否相同;若所述三级映射结果与所述待查样本相同,则确定所述样本集合中存在所述待查样本;若所述三级映射结果与所述待查样本不相同,则确定所述样本集合中不存在所述待查样本。3.根据权利要求1所述的方法,其特征在于,所述神经网络模型的训练过程,包括:将各个训练样本及各个所述训练样本各自对应的权重输入神经网络模型,得到所述神经网络模型输出的各个所述训练样本与各自对应权重的乘积,作为各个所述训练样本的映射值;对各个所述训练样本的映射值进行排序,排序后的得到有序输出值组;计算排序后的各个所述训练样本的映射值中任意两个相邻映射值的差值;若所述任意两个相邻映射值的差值小于1,则对所述任意两个相邻映射值的差值小于1的映射值对应的训练样本的权重进行调整,并返回执行将各个训练样本及各个所述训练样本各自对应的权重输入神经网络模型的步骤,直至排序后的各个所述训练样本的映射值中任意两个相邻映射值的差值均不小于1。4.根据权利要求3所述的方法,其特征在于,所述对所述任意两个相邻映射值的差值小于1的映射值对应的训练样本的权重进行调整,包括:对所述任意两个相邻映射值的差值小于1,且所述任意两个相邻映射值的差值最小的映射值对应的训练样本的权重进行调整。5.根据权利要求3所述的方法,其特征在于,所述一级映射表的确定过程,包括:对所述神经网络模型输出的各个所述训练样本的映射值进行取整运算,得到各个所述训练样本的第一整数映射值;对各个所述训练样本的第一整数映射值进行排序;从排序后的各个所述训练样本的第一整数映射值中确定最小整数映射值和最大整数映射值;将各个所述训练样本的第一整数映射值减去所述最小整数映射值,得到各个所述训练样本的第二整数映射值;将各个所述训练样本的第二整数映射值及各个所述训练样本组成映射表,作为所述一级映射表。6.根据权利要求5所述的方法,其特征在于,所述二级映射表的确定过程,包括:将所述一级映射表中的各个所述第二整数映射值依次映射为1至N中的数值,作为K个二级映射元素中与所述一级映射表存在映射关系的二级映射元素的有效哈希值,所述N为大于1的整数;将K个所述二级映射元素中与所述一级映射表不存在映射关系的二级映射元素的值映射为-1,得到所述二级映射表,所述K为大于所述N的整数。7.根据权利要求6所述的方法,其特征在于,所述三级映射表的确定过程,包括:将所述二级映射表中的有效哈希值依次映射为对应的样本,得到所述三级映射表。8.根据权利要求1-7任意一项所述的方法,其特征在于,所述将待查样本输入预先训练的神经网络模型,包括:将所述待查样本的超长位串属性值输入预先训练的神经网络模型;所述待查样本的超长位串属性值的确定过程,包括:将所述待查样本的各个属性值转换为位串属性值;从各个所述位串属性值中确定出最大的位串属性值;将所述最大的位串属性值对应的位串属性长度作为所述待查样本的定长位串属性长度;按照所述定长位串属性长度,将各个所述位串属性值转换为定长位串属性值;将各个所述定长位串属性值进行连接,得到所述超长位串属性值。9.一种样本查找装置,其特征在于,包括:第一确定模块,用于将待查样本输入预先训练的神经网络模型,得到所述神经网络模型输出...

【专利技术属性】
技术研发人员:徐佳宏朱吕亮
申请(专利权)人:深圳市茁壮网络股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1