【技术实现步骤摘要】
一种相似文本内容的识别方法、装置及存储介质
本申请涉及信息
,尤其涉及一种相似文本内容的识别方法、装置及存储介质。
技术介绍
随着互联网的发展,越来越多的人在公众平台上发布文章,这些文章可以是记实和案例,也可以是经验和方法等。但是公众平台上发布的文章也存在抄袭行为,也即存在内容相似或雷同的文章,这严重影响了作者发文的体验以及公众平台的创作生态。
技术实现思路
本申请的实施例提供了一种相似文本内容的识别方法,包括:获取第一文本内容的第一特征值集合,所述第一特征值集合中包含至少一个第一特征值;确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识,并确定所述多个第二文本内容标识中,每个第二文本内容标识的出现次数;其中,所述N为相似性阈值;每个第二文本内容标识对应的第二文本内容具有所述N个第一特征值中的至少一个第一特征值;当存在出现次数大于或等于所述相似性阈值的第二文本内容标识,则确定所述第一文本内容与所述第二文本内容标识对应的第二文本内容相似。本申请的实施例提供了一种相似文本内容的识别装置,包括:获取模块,获取第一文本内容的第一特征值集合,所述第一特征值集合中包含至少一个第一特征值;第一确定模块,确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识,并确定所述多个第二文本内容标识中,每个第二文本内容标识的出现次数;其中,所述N为相似性阈值,每个第二文本内容标识对应的第二文本内容具有所述N个第一特征值中的至少一个第一特征值;以及第二确定模块,当存在出现次数大于或等于所述相似性阈值的第二文本内容标识,则确定所述第一文本内容与 ...
【技术保护点】
1.一种相似文本内容的识别方法,其特征在于,包括:获取第一文本内容的第一特征值集合,所述第一特征值集合中包含至少一个第一特征值;确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识,并确定所述多个第二文本内容标识中,每个第二文本内容标识的出现次数;其中,所述N为相似性阈值;每个第二文本内容标识对应的第二文本内容具有所述N个第一特征值中的至少一个第一特征值;当存在出现次数大于或者等于所述相似性阈值的第二文本内容标识,则确定所述第一文本内容与所述第二文本内容标识对应的第二文本内容相似。
【技术特征摘要】
1.一种相似文本内容的识别方法,其特征在于,包括:获取第一文本内容的第一特征值集合,所述第一特征值集合中包含至少一个第一特征值;确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识,并确定所述多个第二文本内容标识中,每个第二文本内容标识的出现次数;其中,所述N为相似性阈值;每个第二文本内容标识对应的第二文本内容具有所述N个第一特征值中的至少一个第一特征值;当存在出现次数大于或者等于所述相似性阈值的第二文本内容标识,则确定所述第一文本内容与所述第二文本内容标识对应的第二文本内容相似。2.根据权利要求1所述的方法,其中,确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识包括:针对所述至少N个第一特征值中的每一个第一特征值:获取与该第一特征值对应的内存地址;从所述内存地址,获取所述该第一特征值对应的所述多个第二文本内容标识。3.根据权利要求2所述的方法,其中,所述获取与该第一特征值对应的内存地址包括:将该第一特征值作为偏移量,根据预设的内存起始地址和所述偏移量,确定与所述第一特征值对应的内存空间;从所述确定的内存空间中,获取与该第一特征值对应的内存地址。4.根据权利要求1所述的方法,其中,确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识,包括:针对所述至少N个第一特征值中的每一个第一特征值:根据所述第一特征值,搜索特征值索引库,得到与所述第一特征值对应的多个第二文本内容标识;其中,所述特征值索引库记录有所述第一特征值与所述第二文本内容标识之间的对应关系。5.根据权利要求4所述的方法,进一步包括:获取M个第二文本内容的第二特征值集合;其中,所述第二特征值集合包含所述M个第二文本内容的多个第二特征值;分别将所述第二特征值集合中每个第二特征值与对应于所述第二特征值的第二文本内容标识的对应关系记录在所述特征值索引库中。6.根据权利要求1所述的方法,其中,确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识,并确定所述多个第二文本内容标识中,每个第二文本内容标识的出现次数,包括:选择所述第一特征值集合中的一个第一特征值,确定对应于所述选择的第一特征值的第二文本内容标识,并根据所述确定的第二文本内容标识,更新所述第二文本内容标识的出现次数;如果更新后的各出现次数中,不存在大于或等于所述相似性阈值的出现次数,选择所述第一特征值集合中的下一个第一特征值,并返回所述确定对应于所述选择的第一特征值的第二文本内容标识的步骤。7.根据权利要求1所述的方法,其中,确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识,并确定所述多个第二文本内容标识中,每个第二文本内容标识的出现次数,包括:针对所述第一特征值集合中...
【专利技术属性】
技术研发人员:白帆,
申请(专利权)人:广州腾讯科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。