重复文本识别系统技术方案

技术编号：4480961 阅读：220 留言：0更新日期：2012-04-11 18:40

本实用新型专利技术涉及一种重复文本识别系统，包括：用于将电子文本内容按照标点符号分割为多个短句的分割单元、用于将分割后的每一短句转换为一个唯一的且长度固定的数字序列的转换单元、用于存储数字序列组的搜索引擎、用于在搜索引擎中的两个数字序列组的相似度达到指定阈值时确认对应的电子文本内容为重复文本的判断单元，其中所述搜索引擎中存储的每一数字序列组包括同一电子文本内容的多个数字序列，所述分割单元、转换单元、搜索引擎及判断单元依次连接。本实用新型专利技术通过将电子文本内容分割后的各部分转换为数字序列，并根据数字序列组进行相似度判断，从而提高了相似度判断的效率及效果。（*该技术在2019年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本技术涉及文本处理系统，特别涉及一种重复文本识别系统。技术背景信息技术的发展为人们提供了广阔的获取信息的空间，人们可以通过网络等获取大量的电子文本内容，例如新闻、报道、论文、论坛发帖等。然而，上述电子文本中存在大量的重复内容。为节省用户浏览这些电子文本内容的时间，需要识别并过滤掉这些电子文本内容数据库中的重复内容。现有的搜索引擎中具有去除冗余内容的功能，但效果并不理想。例如申请号为 "200580035487. 6”、名称为“重复文档检测及表示功能”的中国专利提供了一种重复文档的检测方法，基于文档标识符来比较文档的文档签名数据结构，并确定文档的长度是否匹配，若两者都满足，则确认为重复文档。然而，由于重复内容多来自转载，且在转载过程中比如有少许变动，显然上述专利无法对转载内容进行有效去除。如果这部分转载的内容不能去除，则仍然存在大量的重复内容。
技术实现思路
本技术要解决的技术问题在于，针对上述重复内容无法有效识别的问题，提供一种重复文本识别系统。本技术解决上述技术问题的技术方案是，提供一种重复文本识别系统，包括用于将电子文本内容按照标点符号分割为多...

【技术保护点】
一种重复文本识别系统，其特征在于，包括：用于将电子文本内容按照标点符号分割为多个短句的分割单元、用于将分割后的每一短句转换为一个唯一的且长度固定的数字序列的转换单元、用于存储数字序列组的搜索引擎、用于在搜索引擎中的两个数字序列组的相似度达到指定阈值时确认对应的电子文本内容为重复文本的判断单元，其中所述搜索引擎中存储的每一数字序列组包括同一电子文本内容的多个数字序列，所述分割单元、转换单元、搜索引擎及判断单元依次连接。

【技术特征摘要】

【专利技术属性】
技术研发人员：胡达明，冼家扬，
申请(专利权)人：慧科讯业有限公司，
类型：实用新型
国别省市：HK[中国|香港]

全部详细技术资料下载我是这个专利的主人