重复文本识别系统及方法技术方案

技术编号：3897511 阅读：233 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种重复文本识别系统，包括：分割单元，用于将电子文本内容按照标点符号分割为多个短句；转换单元，用于将分割后的每一短句转换为一个唯一的且长度固定的数字序列；搜索引擎，用于存储数字序列组，其中每一数字序列组包括同一电子文本内容的多个数字序列；判断单元，用于在搜索引擎中的两个数字序列组的相似度达到指定阈值时确认对应的电子文本内容为重复文本的。本发明专利技术还提供一种对应的重复文本识别方法。本发明专利技术通过将电子文本内容分割后的各部分转换为数字序列，并根据数字序列组进行相似度判断，从而提高了相似度判断的效率及效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本处理系统，特别涉及一种。
技术介绍
信息技术的发展为人们提供了广阔的获取信息的空间，人们可以通过网络等获取大量的电子文本内容，例如新闻、报道、论文、论坛发帖等。然而，上述电子文本中存在大量的重复内容。为节省用户浏览这些电子文本内容的时间，需要识别并过滤掉这些电子文本内容数据库中的重复内容。现有的搜索引擎中具有去除冗余内容的功能，但效果并不理想。例如申请号为 "200580035487. 6”、名称为“重复文档检测及表示功能”的中国专利提供了一种重复文档的检测方法，基于文档标识符来比较文档的文档签名数据结构，并确定文档的长度是否匹配，若两者都满足，则确认为重复文档。然而，由于重复内容多来自转载，且在转载过程中比如有少许变动，显然上述专利无法对转载内容进行有效去除。如果这部分转载的内容不能去除，则仍然存在大量的重复内容。
技术实现思路
本专利技术要解决的技术问题在于，针对上述重复内容无法有效识别的问题，提供一种重复文本识别系统。本专利技术解决上述技术问题的技术方案是，提供一种重复文本识别系统，包括分割单元，用于将电子文本内容按照标点符号分割为多个短句；转换单元，用于将分割后的每一短句转换为一个唯一的且长度固定的数字序列；搜索引擎，用于存储数字序列组，其中每一数字序列组包括同一电子文本内容的多个数字序列；判断单元，用于在搜索引擎中的两个数字序列组的相似度达到指定阈值时确认对应的电子文本内容为重复文本的。在本专利技术所述的重复文本识别系统中，还包括用于为每一电子文本内容分配一个唯一的内容标识号的分配单元。在本专利技术所述的重...

【技术保护点】
一种重复文本识别系统，其特征在于，包括：分割单元，用于将电子文本内容按照标点符号分割为多个短句；转换单元，用于将分割后的每一短句转换为一个唯一的且长度固定的数字序列；搜索引擎，用于存储数字序列组，其中每一数字序列组包括同一电子文本内容的多个数字序列；判断单元，用于在搜索引擎中的两个数字序列组的相似度达到指定阈值时确认对应的电子文本内容为重复文本的。

【技术特征摘要】

【专利技术属性】
技术研发人员：胡达明，冼家扬，
申请(专利权)人：慧科讯业有限公司，
类型：发明
国别省市：HK[中国|香港]

全部详细技术资料下载我是这个专利的主人