基于Simhash技术的文档反作弊方案制造技术

技术编号:18458733 阅读:17 留言:0更新日期:2018-07-18 12:40
本发明专利技术针对现在互联网重复文档反作弊严重,公开了以Simhash技术的文档反作弊方案;本方案以Simhash算法为文档判重的核心算法为基础对该算法获取文档特征的过程进行改进,将单词意义作为衡量单词权重的一个考量因素;针对64位文档Simhash签名,提供用户维度、全文维度和黑库维度的文档判重服务,并可基于全文和段落两种粒度进行文档相似性比较;本方案对大规模数据有很高的处理效率,能处理海量文档的需求。

Document anti cheating scheme based on Simhash Technology

In view of the serious anti cheating of the present Internet duplicated documents, the document anti cheating scheme with Simhash technology is disclosed. This scheme improves the process of obtaining the document feature based on the core algorithm of the Simhash algorithm as the document judgment, and takes the meaning of the word as an examination factor of the weight of the word. 64 The bit document Simhash signature provides the document weight service of user dimension, full text dimension and Black Library dimension, and compares the document similarity based on two granularity of full text and paragraph. This scheme has high processing efficiency for large-scale data and can deal with the demand of massive documents.

【技术实现步骤摘要】
基于Simhash技术的文档反作弊方案
本专利技术属于互联网
,是一种Simhash算法技术开发的文档反作弊方案。
技术介绍
随着互联网广泛使用,网络上的重复文档越来越多;在互联网中,大量相似文档是很常见的现象,大量重复文档小仅会降低产品质量,且对用户小友好,如何避免大量重复或相近文档出现是我们而对的一个难题,通过Simhash技术我们可以解决以上问题。
技术实现思路
本方案技术如下:1.结合目前在文档反作弊方而的需求,开发了Simhash的海量文档反作弊技术,通过改进的Simhash算法可对外部请求做出实时响应;研究包括新实例注册,实例数据导入,相似文档查找;文档判重可基于用户、全文、黑库维度的判重策略;在粒度上,支持全文和段落粒度的Simhash判重;支持冷热数据的处理;文档反作弊技术建立在海量数据基础上,目前每个实例可以支持2亿文档的规模;另一方而,通过对冷热数据的处理策略,可以使实例的数据维持在一个比较稳定的范围内,不会因为实例本身数据的增长而过快增长;2.基于全文的Simhash判重实现:基于全文的Simhash判重,是指文档判重的粒度为整个文档,即根据整个文档的内容生成Simhash签名,然后根据计算Simhash签名的海明距离判断文档的相似性;该种方式,首先,基于文档全文计算出文档的Simhash值,并计算出与待检测文档海明距离为4以内的文档;最后,根据请求参数,决定是否需要重新设置被匹配文档的失效时间;3.基于段落的Simhash判重实现:对文档做基于全文的Simhash判重,其粒度较大,很容易被作弊者绕过,如在原文前后加上一段,或中间串一段文本,都会导致海明距离变大;在计算精度要求比较高的场介,需要更细粒度的签名计算,例如基于段落的签名计算;基于段落的Simhash判重,其与基于全文Simhash判重的小同点是,需要对待处理文档进行分段,然后对每段求Simhash签名。本文档来自技高网...

【技术保护点】
1.基于Simhash技术的文档反作弊方案,其特征在于:本方案通过高速检索技术,文档特征权值计算,Simhash签名计算技术,基于全文的Simhash判重实现,基于段落的Simhash判重实现;对Simhash判重的准确率进行测试,来进行验证Simhash文档相似度计算效果.来分析本技术的结果。

【技术特征摘要】
1.基于Simhash技术的文档反作弊方案,其特征在于:本方案通过高速检索技术,文档特征权值计算,Simhash签名计算技术,基于全文的Simhas...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:长沙云昊信息科技有限公司
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1