一种相似文本内容的识别方法、装置及存储介质制造方法及图纸

技术编号:21914201 阅读:60 留言:0更新日期:2019-08-21 12:30
本申请提供了一种相似文本内容的识别匹配方法,包括:获取第一文本内容的第一特征值集合,所述第一特征值集合中包含至少一个第一特征值;确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识,并确定所述多个第二文本内容标识中,每个第二文本内容标识的出现次数;其中,所述N为相似性阈值;每个第二文本内容标识对应的第二文本内容具有所述N个第一特征值中的至少一个第一特征值;当存在出现次数大于或等于所述相似性阈值的第二文本内容标识,则确定所述第一文本内容与所述第二文本内容标识对应的第二文本内容相似。相应的。本申请还提供了实现上述方法的装置。

A Recognition Method, Device and Storage Medium for Similar Text Content

【技术实现步骤摘要】
一种相似文本内容的识别方法、装置及存储介质
本申请涉及信息
,尤其涉及一种相似文本内容的识别方法、装置及存储介质。
技术介绍
随着互联网的发展,越来越多的人在公众平台上发布文章,这些文章可以是记实和案例,也可以是经验和方法等。但是公众平台上发布的文章也存在抄袭行为,也即存在内容相似或雷同的文章,这严重影响了作者发文的体验以及公众平台的创作生态。
技术实现思路
本申请的实施例提供了一种相似文本内容的识别方法,包括:获取第一文本内容的第一特征值集合,所述第一特征值集合中包含至少一个第一特征值;确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识,并确定所述多个第二文本内容标识中,每个第二文本内容标识的出现次数;其中,所述N为相似性阈值;每个第二文本内容标识对应的第二文本内容具有所述N个第一特征值中的至少一个第一特征值;当存在出现次数大于或等于所述相似性阈值的第二文本内容标识,则确定所述第一文本内容与所述第二文本内容标识对应的第二文本内容相似。本申请的实施例提供了一种相似文本内容的识别装置,包括:获取模块,获取第一文本内容的第一特征值集合,所述第一特征值集合中包含至少一个第一特征值;第一确定模块,确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识,并确定所述多个第二文本内容标识中,每个第二文本内容标识的出现次数;其中,所述N为相似性阈值,每个第二文本内容标识对应的第二文本内容具有所述N个第一特征值中的至少一个第一特征值;以及第二确定模块,当存在出现次数大于或等于所述相似性阈值的第二文本内容标识,则确定所述第一文本内容与所述第二文本内容标识对应的第二文本内容相似。本申请实施例还提供了一种存储介质,存储有可读指令,可以使至少一个处理器执行上述相似文本内容的识别方法。本申请提供的技术方案,根据倒排索引技术,针对所述第一特征值集合中的至少N个第一特征值,在特征值索引库中确定分别包含所述至少N个第一特征值的第二文本内容,并在确定的各第二文本内容中,如果存在出现次数大于所述相似阈值的第二文本内容,则确定所述第一文本内容与所述第二文本内容相似,一方面大大提高了相似文本内容的识别速度和效率,另一方面提高了硬件资源的效率,节省了大量的计算资源。附图说明图1为本申请一实施例所述的一种相似文本内容的识别方法的实施环境的示意图;图2为本申请一实施例的一种相似文本内容的识别方法的流程图;图3为本申请一实施例的一种相似文本内容的识别方法的流程图;图4为本申请一实施例所述的特征值索引库的示意图;图5为本申请一实施例所述的特征值索引库的另一示意图;图6示出了本申请一实施例所述的确定第二文本内容的标识的方法示意图;图7为本申请一实施例的一种相似文本内容的识别方法的流程图;图8A为本申请一实施例的相似文本内容的识别装置的结构示意图;图8B为本申请一实施例的第一确定模块的结构示意图;及图9为本申请一实施例的用户终端的硬件结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行描述。为了描述上的简洁和直观,下文通过描述若干代表性的实施例来对本专利技术的方案进行阐述。实施例中大量的细节仅用于帮助理解本专利技术的方案。但是很明显,本专利技术的技术方案实现时可以不局限于这些细节。为了避免不必要地模糊了本专利技术的方案,一些实施方式没有进行细致地描述,而是仅给出了框架。下文中,“包括”是指“包括但不限于”,“根据……”是指“至少根据……,但不限于仅根据……”。下文中没有特别指出一个成分的数量时,意味着该成分可以是一个也可以是多个,或可理解为至少一个。如前所述,当前的公众平台中发布的文章存在抄袭行为,为了解决该问题,一些相似文本内容的识别方案采用的是一对一式的顺序匹配模式,也即将待匹配的文本内容与文本内容库中的各个文本内容逐一比较。而这种顺序匹配方式的效率十分低下,例如,假设每10万文章的匹配耗时为1秒,如果需要匹配的文章是5000万,那么进行这一轮顺序匹配需要500秒也即约8.3分钟,显然,这样的耗时不仅给作者造成了不好的体验,还给机器资源造成了重大负担。为了解决上述问题,本申请的实例提出了一种相似文本内容的识别方法。该相似文本内容的识别方法,通过倒排索引技术可以将一篇文本内容在毫秒级别与公众平台内的所有文章进行匹配并找到与之有相似内容的其他文本内容。图1显示了本申请一些实施例所述的一种相似文本内容的识别方法所适用的实施环境示意图。如图1所示,本申请一些实施例所述的文本内容的匹配方法的实施环境至少包括:设备终端11、网络12、服务器13。此外,本申请一些实施例所述的相似文本内容的识别方法的实施环境还可以包括:公众平台101以及用户数据库102。在本申请的一些实例中,上述设备终端11可以是指具有数据计算处理功能的智能设备,包括但不限于(安装有通信模块的)智能手机、掌上电脑、平板电脑、以及个人电脑等。设备终端11上安装有操作系统,包括但不限于:Android操作系统、Symbian操作系统、Windowsmobile操作系统、以及苹果iPhoneOS操作系统等等。设备终端11上安装有各种应用客户端,比如公众平台的应用客户端。网络12可以包括有线网络和无线网络。如图1所示,在接入网一侧,设备终端11可以通过无线的方式或者有线的方式接入到网络12;而在核心网一侧,服务器13一般是通过有线方式连接到网络12的。当然,上述服务器13也可以通过无线方式连接到网络12。服务器13可以是公众平台101的服务器,主要用于将设备终端11上传的一篇待匹配的文本内容与已上传至公众平台的的文本内容进行匹配。服务器13可以是单独的服务器也可以是多个服务器组成的服务器集群。公众平台101还可以包括用户数据库102,用于存储用户上传至公众平台的文本内容等。下面结合附图,通过几个实施例对本申请实例提供的相似文本内容的识别方法进行说明。基于上述图1所示的实施环境图,本申请的一些实施例提供了一种相似文本内容的识别方法,由服务器13执行。图2示出了本申请实例提供的相似文本内容的识别方法的流程图。如图2所示,该相似文本内容的识别方法包括以下步骤:步骤201:获取第一文本内容的第一特征值集合,所述第一特征值集合中包含至少一个第一特征值。通常情况下,当用户需要在公众平台上发布一篇第一文本内容时,需要通过该公众平台的应用客户端将上述第一文本内容上传至上述公众平台的服务器。在一些实例中,上述服务器在接收到上述第一文本内容后,将所述第一文本内容转化为数字格式的所述第一文本内容;根据所述数字格式的所述第一文本内容生成与所述第一文本内容对应的转移矩阵;将所述转移矩阵转化为一维数组;根据所述一维数组,得到所述第一文本内容的第一特征值集合。在一些实例中,上述服务器在接收到上述第一文本内容后,还可以对所述第一文本内容进行分词处理;通过预设算法将分词处理后的所述第一文本内容转化为所述第一特征值集合。步骤202:确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识,并确定所述多个第二文本内容标识中,每个第二文本内容标识的出现次数;其中,所述N为相似性阈值;每个第二文本内容标识对应的第二文本内容具有所述N个第一特征值中的至少一个第一本文档来自技高网...

【技术保护点】
1.一种相似文本内容的识别方法,其特征在于,包括:获取第一文本内容的第一特征值集合,所述第一特征值集合中包含至少一个第一特征值;确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识,并确定所述多个第二文本内容标识中,每个第二文本内容标识的出现次数;其中,所述N为相似性阈值;每个第二文本内容标识对应的第二文本内容具有所述N个第一特征值中的至少一个第一特征值;当存在出现次数大于或者等于所述相似性阈值的第二文本内容标识,则确定所述第一文本内容与所述第二文本内容标识对应的第二文本内容相似。

【技术特征摘要】
1.一种相似文本内容的识别方法,其特征在于,包括:获取第一文本内容的第一特征值集合,所述第一特征值集合中包含至少一个第一特征值;确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识,并确定所述多个第二文本内容标识中,每个第二文本内容标识的出现次数;其中,所述N为相似性阈值;每个第二文本内容标识对应的第二文本内容具有所述N个第一特征值中的至少一个第一特征值;当存在出现次数大于或者等于所述相似性阈值的第二文本内容标识,则确定所述第一文本内容与所述第二文本内容标识对应的第二文本内容相似。2.根据权利要求1所述的方法,其中,确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识包括:针对所述至少N个第一特征值中的每一个第一特征值:获取与该第一特征值对应的内存地址;从所述内存地址,获取所述该第一特征值对应的所述多个第二文本内容标识。3.根据权利要求2所述的方法,其中,所述获取与该第一特征值对应的内存地址包括:将该第一特征值作为偏移量,根据预设的内存起始地址和所述偏移量,确定与所述第一特征值对应的内存空间;从所述确定的内存空间中,获取与该第一特征值对应的内存地址。4.根据权利要求1所述的方法,其中,确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识,包括:针对所述至少N个第一特征值中的每一个第一特征值:根据所述第一特征值,搜索特征值索引库,得到与所述第一特征值对应的多个第二文本内容标识;其中,所述特征值索引库记录有所述第一特征值与所述第二文本内容标识之间的对应关系。5.根据权利要求4所述的方法,进一步包括:获取M个第二文本内容的第二特征值集合;其中,所述第二特征值集合包含所述M个第二文本内容的多个第二特征值;分别将所述第二特征值集合中每个第二特征值与对应于所述第二特征值的第二文本内容标识的对应关系记录在所述特征值索引库中。6.根据权利要求1所述的方法,其中,确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识,并确定所述多个第二文本内容标识中,每个第二文本内容标识的出现次数,包括:选择所述第一特征值集合中的一个第一特征值,确定对应于所述选择的第一特征值的第二文本内容标识,并根据所述确定的第二文本内容标识,更新所述第二文本内容标识的出现次数;如果更新后的各出现次数中,不存在大于或等于所述相似性阈值的出现次数,选择所述第一特征值集合中的下一个第一特征值,并返回所述确定对应于所述选择的第一特征值的第二文本内容标识的步骤。7.根据权利要求1所述的方法,其中,确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识,并确定所述多个第二文本内容标识中,每个第二文本内容标识的出现次数,包括:针对所述第一特征值集合中...

【专利技术属性】
技术研发人员:白帆
申请(专利权)人:广州腾讯科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1