内容重复识别方法、装置、系统和存储介质制造方法及图纸

技术编号:38508801 阅读:10 留言:0更新日期:2023-08-19 16:54
本公开公开了一种内容重复识别方法、装置、系统和存储介质,涉及查重技术。该方法包括:获取内容对应的编码向量;在分布式检索库中查询与编码向量匹配的样本,识别是否存在重复内容;以及将编码向量插入到一个节点的检索库以及存储在存储设备中,其中,该存储设备存储预定时间内的数据,每个节点的检索库定时根据相应节点对应的存储设备内存储的数据进行同步。本公开能够在实现重复识别的同时,剔除检索库中已过期的向量,解决动态时间区间向量检索库更新的问题,提高了在海量数据的快插快查场景下的服务稳定性以及性能。查场景下的服务稳定性以及性能。查场景下的服务稳定性以及性能。

【技术实现步骤摘要】
内容重复识别方法、装置、系统和存储介质


[0001]本公开涉及查重技术,尤其涉及一种内容重复识别方法、装置、系统和存储介质。

技术介绍

[0002]开源的向量检索框架,支持在既定的海量编码检索库下实现高性能的向量检索。但是,对于向量快插快查场景,相关技术中的向量检索框架容易引发服务过载崩溃,或者,面临海量数据下的性能瓶颈问题。

技术实现思路

[0003]本公开要解决的一个技术问题是,提供一种内容重复识别方法、装置、系统和存储介质,能够在实现内容查重的同时,解决动态时间区间向量检索库更新的问题。
[0004]根据本公开一方面,提出一种内容重复识别方法,包括:获取内容对应的编码向量;在分布式检索库中查询与编码向量匹配的样本,识别是否存在重复内容;以及将编码向量插入到一个节点的检索库以及存储在存储设备中,其中,该存储设备存储预定时间内的数据,每个节点的检索库定时根据相应节点对应的存储设备内存储的数据进行同步。
[0005]在一些实施例中,将编码向量和对应的时间存储在存储设备中,其中,存储设备定时对存储的编码向量进行检测,删除已过期的编码向量。
[0006]在一些实施例中,接收各个节点的检索库在完成与存储设备进行数据同步重启后的反馈,其中,反馈包括检索库量级信息。
[0007]在一些实施例中,将编码向量插入到一个节点的检索库包括:以多个节点的检索库量级平衡为目标,将编码向量插入到一个节点的检索库。
[0008]在一些实施例中,在存在与编码向量匹配的样本的情况下,在缓存中标记编码向量与匹配的样本的对应关系。
[0009]在一些实施例中,在内容为文本的情况下,在分布式检索库中,查询与编码向量相似度大于第一阈值,且最长公共子序列的长度占比大于第二阈值的样本。
[0010]在一些实施例中,在内容为图像的情况下,对图像做特征分类处理;在图像为预定类别的情况下,在分布式检索库中,查询与编码向量相似度大于第三阈值的样本;以及在图像为非预定类别的情况下,在分布式检索库中,查询与编码向量相似度大于第四阈值的样本,其中,第四阈值小于第三阈值。
[0011]在一些实施例中,在存在与所述编码向量匹配的样本的情况下,向业务侧反馈重复标记。
[0012]根据本公开的另一方面,还提出一种内容重复识别装置,包括:获取模块,被配置为获取内容对应的编码向量;查询模块,被配置为在分布式检索库中查询与编码向量匹配的样本,识别是否存在重复内容;以及插入模块,被配置为将编码向量插入到一个节点的检索库以及存储在存储设备中,存储设备存储预定时间内的数据,每个节点的检索库定时根据相应节点对应的存储设备内存储的数据进行同步;以及反馈模块,被配置为在存在与编
码向量匹配的样本的情况下,向业务侧反馈重复标记。
[0013]根据本公开的另一方面,还提出一种内容重复识别装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行如上述的内容重复识别方法。
[0014]根据本公开的另一方面,还提出一种内容重复识别系统,包括上述实施例中的内容重复识别装置;分布式检索库,被配置为根据存储设备内存储的数据进行同步;以及存储设备,被配置为定时对存储的编码向量进行检测,删除已过期的编码向量。
[0015]根据本公开的另一方面,还提出一种非瞬时性计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现如上述的内容重复识别方法。
[0016]本公开实施例中,在多个检索库中查询与内容对应的编码向量匹配的样本,将编码向量插入到一个检索库并进行存储,从而维护动态时间区域内的向量检索,并且由于存储设备只存储预定时间的数据,且每个节点的检索库定时根据存储设备进行更新同步,因此,能够在实现重复识别的同时,剔除检索库中已过期的向量,解决动态时间区间向量检索库更新的问题,提高了在海量数据的快插快查场景下的服务稳定性以及性能。
[0017]通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
[0018]构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
[0019]参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
[0020]图1为本公开的内容重复识别方法的一些实施例的流程示意图;
[0021]图2为本公开的内容重复识别方法的另一些实施例的流程示意图;
[0022]图3为本公开的内容重复识别方法的另一些实施例的流程示意图;
[0023]图4为本公开的内容重复识别方法的另一些实施例的流程示意图;
[0024]图5为本公开的内容重复识别方法的另一些实施例的流程示意图;
[0025]图6为本公开的内容重复识别方法的另一些实施例的流程示意图;
[0026]图7为本公开的内容重复识别方法的另一些实施例的流程示意图;
[0027]图8为本公开的内容重复识别装置的一些实施例的结构示意图;
[0028]图9为本公开的内容重复识别装置的另一些实施例的结构示意图;以及
[0029]图10为本公开的内容重复识别装置的另一些实施例的结构示意图。
具体实施方式
[0030]现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
[0031]同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
[0032]以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开
及其应用或使用的任何限制。
[0033]对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
[0034]在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
[0035]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0036]为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
[0037]Milvus向量检索框架,支持向量检索库内容的插入、删除、查询,faiss向量检索框架,则只支持向量检索库内容的插入、查询,在固定的内容编码检索库下,通过milvus、faiss向量检索框架,都可实现针对固定文本或图像编码库的检索查重。
[0038]但是,由于机器内存有限的原因,以及从业务角度出发,对于站内新产出的内容,我们更关注于它是否与最近时间段内的内容有重复,因此需要维护动态时间区域内的向量检索,而在维护时间区间时,不仅需要将新本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种内容重复识别方法,包括:获取内容对应的编码向量;在分布式检索库中查询与所述编码向量匹配的样本,识别是否存在重复内容;以及将所述编码向量插入到一个节点的检索库以及存储在存储设备中,其中,所述存储设备存储预定时间内的数据,每个节点的检索库定时根据相应节点对应的存储设备内存储的数据进行同步。2.根据权利要求1所述的内容重复识别方法,还包括:将所述编码向量和对应的时间存储在所述存储设备中,其中,所述存储设备定时对存储的编码向量进行检测,删除已过期的编码向量;和/或接收各个节点的检索库在完成与所述存储设备进行数据同步重启后的反馈,其中,所述反馈包括检索库量级信息。3.根据权利要求1所述的内容重复识别方法,其中,将所述编码向量插入到一个节点的检索库包括:以多个节点的检索库量级平衡为目标,将所述编码向量插入到一个节点的检索库。4.根据权利要求1所述的内容重复识别方法,还包括:在存在与所述编码向量匹配的样本的情况下,在缓存中标记所述编码向量与所述匹配的样本的对应关系。5.根据权利要求1至4任一所述的内容重复识别方法,其中,在分布式检索库中查询与所述编码向量匹配的样本包括:在所述内容为文本的情况下,在分布式检索库中,查询与所述编码向量相似度大于第一阈值,且最长公共子序列的长度占比大于第二阈值的样本;和/或在所述内容为图像的情况下,对所述图像做特征分类处理;在所述图像为预定类别的情...

【专利技术属性】
技术研发人员:谢江尹顺顺李孟霖张璐陶明
申请(专利权)人:上海任意门科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1