一种问题查重方法、装置以及电子设备制造方法及图纸

技术编号:24683755 阅读:23 留言:0更新日期:2020-06-27 08:03
本申请公开了一种问题查重方法、装置以及电子设备,涉及信息处理技术领域。具体实现方案为:对待查问题进行编码,获得待查问题的目标向量;通过近似最近邻算法在检索空间中检索目标向量的候选向量,其中,检索空间为根据对已有问题集进行编码得到的第一矩阵构建得到的;获取候选向量对应的候选问题,已有问题集中包括候选问题;根据候选问题,获取待查问题的重复问题。在问题查重方法过程中,候选问题是通过近似最近邻算法在检索空间中检索到的候选向量对应的问题,再根据候选问题以获取待查问题的重复问题即可,以实现对待查问题的查重,无需将待查问题与已有问题集中每个问题进行逐一匹配查找,提高查重效率。

A method, device and electronic equipment for problem duplicate checking

【技术实现步骤摘要】
一种问题查重方法、装置以及电子设备
本申请涉及计算机技术中的信息处理
,尤其涉及一种问题查重方法、装置以及电子设备。
技术介绍
企业知识管理中,有大量知识存在于FAQ(FrequentlyAskedQuestions)中,FAQ即常见的问题与对应问题的解答。为了能够对FAQ进行有效的管理,在对FAQ进行管理过程中,若有待新增问题,则需要对待新增问题进行查重,即在FAQ中查找是否有与该待新增问题重复的问题,以便后续对待新增问题的管理。然而,目前在查重过程中,需将待新增问题与已有问题集合中每个问题进行逐一查找匹配,如此,容易导致查重效率较低。
技术实现思路
本申请提供一种问题查重方法、装置和电子设备,以解决问题查重效率较差的问题。第一方面,本申请一个实施例提供一种问题查重方法,包括:对待查问题进行编码,获得所述待查问题的目标向量;通过近似最近邻算法在检索空间中检索所述目标向量的候选向量,其中,所述检索空间为根据对已有问题集进行编码得到的第一矩阵构建得到的;获取所述候选向量对应的候选问题,所述已有问题集中包括所述候选问题;根据所述候选问题,获取所述待查问题的重复问题。本申请上述实施例的问题查重方法中,首先对待查问题进行编码得到目标向量,通过近似最近邻算法在检索空间中检索目标向量的候选向量,然后获取候选向量对应的候选问题,再根据候选问题,获取待查问题的重复问题。即在问题查重过程中,候选问题是通过近似最近邻算法在检索空间中检索到的候选向量对应的问题,再根据候选问题以获取待查问题的重复问题即可,以实现对待查问题的查重,无需将待查问题与已有问题集中每个问题进行逐一匹配查找,提高查重效率。可选的,所述根据所述候选问题,确定所述待查问题的重复问题,包括:计算所述候选问题与所述待查问题之间的语义相似度;获取所述候选问题中语义相似度大于预设相似度的所述重复问题。即在本实施例中,待查问题的重复问题为候选问题中语义相似度大于预设相似度的问题,如此可提高待查问题的重复问题的准确性。可选的,所述检索空间的构建方式包括:基于第一编码算法对所述已有问题集进行编码,得到第一矩阵;基于第二编码算法对所述第一矩阵进行编码,生成所述近似最近邻算法的所述检索空间。通过第一编码算法对已有问题集进行编码,得到第一矩阵,同时,基于第二编码算法对所述第一矩阵进行编码,生成所述近似最近邻算法的所述检索空间,然后根据待查问题的目标向量,通过最近邻算法在通过第二编码算法对第一矩阵编码后的检索空间进行检索得到候选向量,根据候选向量的候选问题确定待查问题的重复问题,提高检索效率以及提高查重效率。可选的,所述第一编码算法包括字嵌入算法。通过字嵌入算法对已有问题集进行编码,获得所述已有问题集的第一矩阵,从而可提取到已有问题的语义特征,即第一矩阵中具有已有问题集的语义特征,减少语义相同字面不同时查重准确性较低的问题,后续对待查问题进行查重时,可提高查重准确性。可选的,所述对待查问题进行编码,获得所述待查问题的目标向量包括:基于词嵌入算法对所述待查问题进行编码,获得所述待查问题的目标向量。通过字嵌入算法对对待查问题进行编码,获得所述待查问题的目标向量,从而可提取到待查问题的语义特征,后续对待查问题进行查重时,可提高查重准确性。第二方面,本申请一个实施例提供一种问题查重装置,所述装置包括:第一编码模块,用于对待查问题进行编码,获得所述待查问题的目标向量;检索模块,用于通过近似最近邻算法在检索空间中检索所述目标向量的候选向量,其中,所述检索空间为根据对已有问题集进行编码得到的第一矩阵构建得到的;候选问题获取模块,用于获取所述候选向量对应的候选问题,所述已有问题集中包括所述候选问题;查重模块,用于根据所述候选问题,获取所述待查问题的重复问题。可选的,所述查重模块,包括:相似度计算模块,用于计算所述候选问题与所述待查问题之间的语义相似度;重复问题获取模块,用于获取所述候选问题中语义相似度大于预设相似度的所述重复问题。可选的,所述装置还包括:第二编码模块,用于基于第一编码算法对所述已有问题集进行编码,得到第一矩阵;第三编码模块,用于基于第二编码算法对所述第一矩阵进行编码,生成所述近似最近邻算法的所述检索空间。可选的,所述第一编码算法包括字嵌入算法。可选的,所述对待查问题进行编码,获得所述待查问题的目标向量包括:基于词嵌入算法对所述待查问题进行编码,获得所述待查问题的目标向量。第三方面,本申请一个实施例还提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请各实施例提供的方法。第四方面,本申请一个实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行本申请各实施例提供的方法。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是本申请提供的一个实施例的问题查重方法的流程示意图;图2是本申请提供的一个实施例的问题查重装置的结构图之一;图3是本申请提供的一个实施例的问题查重装置的结构图之二;图4是用来实现本申请实施例的问题查重方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。如图1所示,根据本申请的实施例,本申请提供一种问题查重方法,包括:步骤S101:对待查问题进行编码,获得待查问题的目标向量。首先获取待查问题,对待查问题在已有问题集中进行查重,可以理解,待查问题为由文字(可以是中文、其他国家的外文、或者中文与外文的混合等)组成的问题。在本申请实施例中,首先可对待查问题进行编码,得到待查问题的目标向量,可以理解为将待查问题映射为表征该待查问题的目标向量。步骤S102:通过近似最近邻算法在检索空间中检索目标向量的候选向量。其中,检索空间为根据对已有问题集进行编码得到的第一矩阵构建得到的。近似最近邻算法即ANN(ApproximateNearestNeighbor)算法,为一种检索算法,在本实施例中,可采用开源的ANN算法,例如,开源的ANN算法开源可选用KNSW、KGraph、SW-graph、Annoy等。在获取待查问题的目标向量之后,可基于ANN算法在已经构建的检索空间中检索待查问题的目标本文档来自技高网...

【技术保护点】
1.一种问题查重方法,其特征在于,所述方法包括:/n对待查问题进行编码,获得所述待查问题的目标向量;/n通过近似最近邻算法在检索空间中检索所述目标向量的候选向量,其中,所述检索空间为根据对已有问题集进行编码得到的第一矩阵构建得到的;/n获取所述候选向量对应的候选问题,所述已有问题集中包括所述候选问题;/n根据所述候选问题,获取所述待查问题的重复问题。/n

【技术特征摘要】
1.一种问题查重方法,其特征在于,所述方法包括:
对待查问题进行编码,获得所述待查问题的目标向量;
通过近似最近邻算法在检索空间中检索所述目标向量的候选向量,其中,所述检索空间为根据对已有问题集进行编码得到的第一矩阵构建得到的;
获取所述候选向量对应的候选问题,所述已有问题集中包括所述候选问题;
根据所述候选问题,获取所述待查问题的重复问题。


2.根据权利要求1所述的方法,其特征在于,所述根据所述候选问题,确定所述待查问题的重复问题,包括:
计算所述候选问题与所述待查问题之间的语义相似度;
获取所述候选问题中语义相似度大于预设相似度的所述重复问题。


3.根据权利要求1所述的方法,其特征在于,所述检索空间的构建方式包括:
基于第一编码算法对所述已有问题集进行编码,得到第一矩阵;
基于第二编码算法对所述第一矩阵进行编码,生成所述近似最近邻算法的所述检索空间。


4.根据权利要求3所述的方法,其特征在于,所述第一编码算法包括字嵌入算法。


5.根据权利要求1所述的方法,其特征在于,所述对待查问题进行编码,获得所述待查问题的目标向量包括:
基于词嵌入算法对所述待查问题进行编码,获得所述待查问题的目标向量。


6.一种问题查重装置,其特征在于,所述装置包括:
第一编码模块,用于对待查问题进行编码,获得所述待查问题的目标向量;
检索模块,用于通过近似最近邻算法在检索空间中检索所述目标向量的候选向量,其中,所述检索空间为根据对已有问题集进行编码得到的第一矩阵构建...

【专利技术属性】
技术研发人员:王志华崔雪霏周友富张一麟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1