重复文本识别系统及方法技术方案

技术编号:3897511 阅读:233 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种重复文本识别系统,包括:分割单元,用于将电子文本内容按照标点符号分割为多个短句;转换单元,用于将分割后的每一短句转换为一个唯一的且长度固定的数字序列;搜索引擎,用于存储数字序列组,其中每一数字序列组包括同一电子文本内容的多个数字序列;判断单元,用于在搜索引擎中的两个数字序列组的相似度达到指定阈值时确认对应的电子文本内容为重复文本的。本发明专利技术还提供一种对应的重复文本识别方法。本发明专利技术通过将电子文本内容分割后的各部分转换为数字序列,并根据数字序列组进行相似度判断,从而提高了相似度判断的效率及效果。

【技术实现步骤摘要】

本专利技术涉及文本处理系统,特别涉及一种。
技术介绍
信息技术的发展为人们提供了广阔的获取信息的空间,人们可以通过网络等获取 大量的电子文本内容,例如新闻、报道、论文、论坛发帖等。然而,上述电子文本中存在大量 的重复内容。为节省用户浏览这些电子文本内容的时间,需要识别并过滤掉这些电子文本 内容数据库中的重复内容。现有的搜索引擎中具有去除冗余内容的功能,但效果并不理想。例如申请号为 "200580035487. 6”、名称为“重复文档检测及表示功能”的中国专利提供了一种重复文档的 检测方法,基于文档标识符来比较文档的文档签名数据结构,并确定文档的长度是否匹配, 若两者都满足,则确认为重复文档。然而,由于重复内容多来自转载,且在转载过程中比如有少许变动,显然上述专利 无法对转载内容进行有效去除。如果这部分转载的内容不能去除,则仍然存在大量的重复 内容。
技术实现思路
本专利技术要解决的技术问题在于,针对上述重复内容无法有效识别的问题,提供一 种重复文本识别系统。本专利技术解决上述技术问题的技术方案是,提供一种重复文本识别系统,包括分割单元,用于将电子文本内容按照标点符号分割为多个短句;转换单元,用于将分割后的每一短句转换为一个唯一的且长度固定的数字序列;搜索引擎,用于存储数字序列组,其中每一数字序列组包括同一电子文本内容的 多个数字序列;判断单元,用于在搜索引擎中的两个数字序列组的相似度达到指定阈值时确认对 应的电子文本内容为重复文本的。在本专利技术所述的重复文本识别系统中,还包括用于为每一电子文本内容分配一个 唯一的内容标识号的分配单元。在本专利技术所述的重复文本识别系统中,还包括第一保存单元和第二保存单元,其 中所述第一保存单元,用于在确认当前电子文本内容对应的数字序列组与搜索引擎 中所有数字序列组的相似度小于第一阈值时,将该当前电子文本内容的内容标识号作为群 号并将该群号与数字序列组一起存储到搜索引擎;所述第二保存单元,用于在确认当前电子文本内容对应的数字序列组与搜索引擎 中的相似度最大的数字序列组的相似度大于或等于第一阈值时,将所述相似度最大的数字 序列组的群号作为当前电子文本内容的群号并将该群号与数字序列组一起存储到搜索引4擎。在本专利技术所述的重复文本识别系统中,还包括在搜索引擎中具有相同群号的数字 序列组超过第二阈值时检查这些数字序列组中的数字序列是否为噪音并将所述噪音对应 的数字序列清除出数字序列组的去噪音单元。在本专利技术所述的重复文本识别系统中,还包括再分割单元、术语计算单元、短句计 算单元以及清扰单元,其中所述再分割单元,用于将电子文本内容分割所得的短句分割为术语;所述术语计算单元,用于根据术语在电子文本内容中的位置及出现次数进行加权 计算;所述短句计算单元,用于根据所述术语计算单元计算的术语的权值计算短句的权 值;所述清扰单元,用于将短句的权值超过第三阈值的短句对应的数字序列清除出数 字序列组。本专利技术还提供一种重复文本识别方法,包括(a)将电子文本内容按照标点符号分割为多个短句;(b)将分割后的每一短句转换为一个唯一的且长度固定的数字序列;(c)存储上述数字序列组到搜索引擎中,其中每一数字序列组包括同一电子文本 内容的多个数字序列;(d)判断搜索引擎中的两个数字序列组的相似度是否达到第一阈值,若达到则确 认该两个数字序列组重复。在本专利技术所述的重复文本识别方法中,所述步骤(a)包括为每一电子文本内容 设置唯一的内容标识号。在本专利技术所述的重复文本识别方法中,所述步骤(c)包括(cl)判断搜索引擎中是否存在与当前电子文本内容对应的数字序列组相同或类 似的数字序列组,若不存在与当前文本内容相同或类似的数字序列组,则执行步骤(c2),否 则执行步骤(c3);(c2)以该当前电子文本内容的内容标识号为群号存储该数字序列组到搜索引 擎;(c3)获取与该当前电子文本内容对应数字序列组相同或最近似的数字序列组的 群号,并以获取的群号作为当前电子文本内容对应数字序列组的群号,将当前电子文本内 容对应的数字序列组存储到搜索引擎;(c4)在完成所有电子文本内容对应数字序列组的存储后,对搜索引擎中的数字序 列组去噪音。在本专利技术所述的重复文本识别方法中,所述步骤(a)中进一步包括(al)将电子文本内容分割所得的短句进一步分割为术语;(a2)根据术语在电子文本内容中的位置及出现次数进行加权计算;(a3)根据上述计算的术语的权值计算短句的权值;(a4)将权值小于第三阈值的短句对应的数字序列清除出数字序列组。在本专利技术所述的重复文本识别方法中,所述步骤(b)中使用哈希运算实现短句到5数字序列的转换。本专利技术的重复文本识别系统具有以下有益效果通过将电子文本内容分割后的各 部分转换为数字序列,并根据数字序列组进行相似度判断,从而提高了相似度判断的效率 及效果。本专利技术还通过减少数字序列组中的噪音,进一步提升了相似度判断的准确性。附图说明下面将结合附图及实施例对本专利技术作进一步说明,附图中图1是本专利技术重复文本识别系统第一实施例的结构示意图;图2是本专利技术重复文本识别系统第二实施例的结构示意图;图3是本专利技术重复文本识别系统第三实施例的结构示意图;图4是本专利技术重复文本识别方法第一实施例的示意图;图5是本专利技术重复文本识别方法第二实施例的示意图;图6是电子文本内容的第一实例;图7是电子文本内容的第二实例。具体实施例方式如图1所示,是本专利技术重复文本识别系统第一实施例的结构示意图。该系统包括 分割单元11、转换单元12、搜索引擎13以及判断单元14,其中上述分割单元11、转换单元 12、搜索引擎13及判断单元14依次连接。上述各单元可以位于同一物理设备,也可位于多 个相连的物理设备。分割单元11用于将电子文本内容按照标点符号分割为多个短句,其中作为分割 依据的标点符号可以设定,例如句号、逗号、分号、问号、感叹号等。例如将“去年券商业绩 下滑50% -60%很正常。因为业务萎缩,为了节约开支减少成本我们也裁了一些业务人员。 以前发17个月的工资,现在就发12个月的,相当于变相降薪”分割为短句“去年券商业绩 下滑50% -60%很正常”、“因为业务萎缩”、“为了节约开支减少成本我们也裁了一些业务人 员”、“以前发17个月的工资”、“现在就发12个月的”、“相当于变相降薪”。转换单元12用于将分割后的每一短句转换为一个唯一的且长度固定的数字序 列。在具体实现时,该转换单元12可使用哈希运算等实现电子文本内容到数字序列的转 换。搜索引擎13用于存储数字序列组,其中每一数字序列组包括同一电子文本内容 的多个数字序列。判断单元14用于在搜索引擎13中的两个数字序列组的相似度达到第一阈值时确 认对应的电子文本内容为重复文本。上述的相似度是指两个数字序列组中相同的数字序列 的数量等。当然,相似度也可定义为其他方式,例如两个数字序列组中相同的数字序列的比 例等。而第一阈值则可根据精确度要求进行设定,精确度要求越高,第一阈值越大。在上述实施例中,由于将电子文本内容中的所有内容都转换为多个相同长度的数 字序列,降低了比较过程中的计算复杂度,并使得对比更加全面。如图2所示,是本专利技术重复文本识别系统第二实施例的结构示意图。在该系统中 除了包括分割单元21、转换单元22、搜索引擎23本文档来自技高网...

【技术保护点】
一种重复文本识别系统,其特征在于,包括:分割单元,用于将电子文本内容按照标点符号分割为多个短句;转换单元,用于将分割后的每一短句转换为一个唯一的且长度固定的数字序列;搜索引擎,用于存储数字序列组,其中每一数字序列组包括同一电子文本内容的多个数字序列;判断单元,用于在搜索引擎中的两个数字序列组的相似度达到指定阈值时确认对应的电子文本内容为重复文本的。

【技术特征摘要】

【专利技术属性】
技术研发人员:胡达明冼家扬
申请(专利权)人:慧科讯业有限公司
类型:发明
国别省市:HK[中国|香港]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1