重复文本的检测方法及装置制造方法及图纸

技术编号：15329473 阅读：32 留言：0更新日期：2017-05-16 13:08

本发明专利技术实施例公开了一种重复文本的检测方法及装置。所述方法包括：获取待检测文本；将所述待检测文本区分为短文本及长文本；对所述短文本采用基于文本关联的重复检测；对所述长文本采用基于局部敏感哈希算法的重复检测。本发明专利技术实施例提供的重复文本的检测方法及装置实现了对短文本的有效的重复检测处理。

Method and device for detecting duplicate text

The embodiment of the invention discloses a method and a device for detecting repeated texts. The method comprises: acquiring the detected text; the detected text is divided into short and long text text; the short text using repeated text detection based on correlation; the long text using repeated detection based on local sensitive hash algorithm. The method and the device for detecting duplicate text provided by the embodiment of the invention realize the effective repeated detection processing of short texts.

全部详细技术资料下载

【技术实现步骤摘要】
重复文本的检测方法及装置
本专利技术实施例涉及大数据分析
，尤其涉及一种重复文本的检测方法及装置。
技术介绍
在互联网大规模普及的今天，各种资源呈爆炸式增长，越来越庞大的互联网促进了搜索引擎技术的不断发展，使它越来越成为人们从网络上获取信息的主要手段。但是，互联网上有大量的重复网页信息。为了提高搜索引擎提供的搜索结果的有效性，文本的重复检测就成为了互联网企业提高搜索引擎质量的关键技术。在文本的重复检测技术中，一种十分常用的技术就是基于哈希算法而完成的。这种技术已经相当成熟，运行效率和鲁棒性都是能够满足搜索引擎目前的需要。当时，利用哈希算法完成的文本重复检测有一个缺点，就是在面对短文本的重复检测时，会出现运行效率不高的情况。
技术实现思路
针对上述技术问题，本专利技术实施例提供了一种重复文本的检测方法及装置，以实现对短文本的有效的重复检测处理。一方面，本专利技术实施例提供了一种重复文本的检测方法，所述方法包括：获取待检测文本；将所述待检测文本区分为短文本及长文本；对所述短文本采用基于文本关联的重复检测；对所述长文本采用基于局部敏感哈希算法的重复检测。另一方面，本专利技术实施例还提供了一种重复文本的检测装置，所述装置包括：文本获取模块，用于获取待检测文本；文本区分模块，用于将所述待检测文本区分为短文本及长文本；短文本检测模块，用于对所述短文本采用基于文本关联的重复检测；长文本检测模块，用于对所述长文本采用基于局部敏感哈希算法的重复检测。本专利技术实施例提供的重复文本的检测方法及装置，通过获取待检测文本，将所述待检测文本区分为短文本及长文本，对所述短文本采用基...

【技术保护点】
一种重复文本的检测方法，其特征在于，包括：获取待检测文本；将所述待检测文本区分为短文本及长文本；对所述短文本采用基于文本关联的重复检测；对所述长文本采用基于局部敏感哈希算法的重复检测。

【技术特征摘要】
1.一种重复文本的检测方法，其特征在于，包括：获取待检测文本；将所述待检测文本区分为短文本及长文本；对所述短文本采用基于文本关联的重复检测；对所述长文本采用基于局部敏感哈希算法的重复检测。2.根据权利要求1所述的方法，其特征在于，将所述待检测文本区分为短文本及长文本包括：基于规则或者分类器，将所述待检测文本区分为短文本及长文本。3.根据权利要求1所述的方法，其特征在于，对所述短文本采用基于文本关联的重复检测包括：对所述短文本进行短文本关联；对关联后的文本进行基于哈希算法的重复检测，其中，关联后的文本为长文本。4.根据权利要求1所述的方法，其特征在于，对所述长文本采用基于局部敏感哈希算法的重复检测包括：采用局部敏感哈希算法生成所述长文本的文件指纹，并基于所述文件指纹进行重复检测。5.根据权利要求4所述的方法，其特征在于，所述局部敏感哈希算法包括但不限于：MinHash算法，或者SimHash算法。6.一种重复文本的检测装...

【专利技术属性】
技术研发人员：刘鹏，赵杰，韦强申，李强，
申请(专利权)人：北京锐安科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人