一种Simhash算法的海量文档反作弊技术方法技术

技术编号：17196041 阅读：24 留言：0更新日期：2018-02-03 22:46

本发明专利技术公开了以互联网重复文档反作弊需求为背景，开发设计出Simhash的海量文档反作弊技术，以Simhash算法为文档判重的核心算法为基础对该算法获取文档特征的过程进行改进，将单词意义作为衡量单词权重的一个考量因素;针对64位文档Simhash签名，提供用户维度、全文维度和黑库维度的文档判重服务，并可基于全文和段落两种粒度进行文档相似性比较。

全部详细技术资料下载

【技术实现步骤摘要】
一种Simhash算法的海量文档反作弊技术方法
本专利技术涉及互联网
,是一种Simhash算法技术。
技术介绍
在这个信息爆炸的时代，网络上的重复文档越来越多，据统计，互联网上的重复网页约占30%-45%;对网络上的文档进行相似度判断，并根据判定结果做相应的处理，例如小子收录、删除等，成为互联网技术发展的一个重要分支，在互联网中，大量相似文档是很常见的现象，大量重复文档小仅会降低产品质量，且对用户小友好，如何避免大量重复或相近文档出现是我们而对的一个难题。
技术实现思路
Simhash算法山Google的Charikar提出，是将一篇文档转化为n位的签名，通过比较签名的相似度来计算原文档的相似度;签名越相近，则文档越相似；因此，整个过程小会涉及到原文档文本内容的两两比较，就无需存储这些海量的文档内容，因此该算法可以推广到数以百亿的文档比较范围；另外算法简单易行，容易理解，但要达到理想的效果还需结介具体的需求处理；Simhash算法是当前主流的近似文本检测算法。Simhash算法的海量文档反作弊技术的设计-高速检索技术设计：将每个64位的签名分为四个部分，若两签名的海明距离小于3，通过抽屉原理可知，则必定有一个部分是相等，因此，可将64位的签名平分为4个部分，每部分16位，将16位的二进制作为key,将含有该16位key的签名作为value存储在redis中;对于一个待比较的签名，均分为4个部分，每个部分作为key在redis中拉取value，再从被拉取出的value中计算海明距离，这种方法能大大缩小海明距离计算的范围。Simhash算法的海量文档反作弊...

【技术保护点】
一种Simhash算法的海量文档反作弊技术方法，其特征在于：结合目前在文档反作弊方面的需求,开发设计出Simhash的海量反作弊技术, 经过测试，程序运行稳定，对大规模数据有很高的处理效率，能满足多个实例使用服务，能处理海量文档的需求。

【技术特征摘要】
1.一种Simhash算法的海量文档反作弊技术方法，其特征在于：结合目前在文档反作弊方面的需求,开发设计出Simhash的海量反作弊技术,经过测试，程序运行稳定，对大规模数据有很高的处理效率，能满足多个实例使用服务，能处理海量文档的需求。2.根据权利要求1所述的方法，其特征在于，Simhash算法的海...

【专利技术属性】
技术研发人员：余漫游，
申请(专利权)人：长沙有干货网络技术有限公司，
类型：发明
国别省市：湖南,43

全部详细技术资料下载我是这个专利的主人