重复文本识别系统技术方案

技术编号:4480961 阅读:206 留言:0更新日期:2012-04-11 18:40
本实用新型专利技术涉及一种重复文本识别系统,包括:用于将电子文本内容按照标点符号分割为多个短句的分割单元、用于将分割后的每一短句转换为一个唯一的且长度固定的数字序列的转换单元、用于存储数字序列组的搜索引擎、用于在搜索引擎中的两个数字序列组的相似度达到指定阈值时确认对应的电子文本内容为重复文本的判断单元,其中所述搜索引擎中存储的每一数字序列组包括同一电子文本内容的多个数字序列,所述分割单元、转换单元、搜索引擎及判断单元依次连接。本实用新型专利技术通过将电子文本内容分割后的各部分转换为数字序列,并根据数字序列组进行相似度判断,从而提高了相似度判断的效率及效果。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】

本技术涉及文本处理系统,特别涉及一种重复文本识别系统。技术背景信息技术的发展为人们提供了广阔的获取信息的空间,人们可以通过网络等获取 大量的电子文本内容,例如新闻、报道、论文、论坛发帖等。然而,上述电子文本中存在大量 的重复内容。为节省用户浏览这些电子文本内容的时间,需要识别并过滤掉这些电子文本 内容数据库中的重复内容。现有的搜索引擎中具有去除冗余内容的功能,但效果并不理想。例如申请号为 "200580035487. 6”、名称为“重复文档检测及表示功能”的中国专利提供了一种重复文档的 检测方法,基于文档标识符来比较文档的文档签名数据结构,并确定文档的长度是否匹配, 若两者都满足,则确认为重复文档。然而,由于重复内容多来自转载,且在转载过程中比如有少许变动,显然上述专利 无法对转载内容进行有效去除。如果这部分转载的内容不能去除,则仍然存在大量的重复 内容。
技术实现思路
本技术要解决的技术问题在于,针对上述重复内容无法有效识别的问题,提 供一种重复文本识别系统。本技术解决上述技术问题的技术方案是,提供一种重复文本识别系统,包括 用于将电子文本内容按照标点符号分割为多个短句的分割单元、用于将分割后的每一短句 转换为一个唯一的且长度固定的数字序列的转换单元、用于存储数字序列组的搜索引擎、 用于在搜索引擎中的两个数字序列组的相似度达到第一阈值时确认对应的电子文本内容 为重复文本的判断单元,其中所述搜索引擎中存储的每一数字序列组包括同一电子文本内 容的多个数字序列,所述分割单元、转换单元、搜索引擎及判断单元依次连接。在本技术所述的重复文本识别系统中,还包括用于为每一电子文本内容分配 一个唯一的内容标识号的分配单元。在本技术所述的重复文本识别系统中,所述判断单元包括在确认当前电子文 本内容对应的数字序列组与搜索引擎中所有数字序列组的相似度小于第一阈值时,将该当 前电子文本内容的内容标识号作为群号并将该群号与数字序列组一起存储到搜索引擎的 第一保存单元,所述第一保存单元分别与分配单元和搜索引擎连接。在本技术所述的重复文本识别系统中,所述判断单元包括在确认当前电子文 本内容对应的数字序列组与搜索引擎中的相似度最大的数字序列组的相似度大于或等于 第一阈值时,将所述相似度最大的数字序列组的群号作为当前电子文本内容的群号并将该 群号与数字序列组一起存储到搜索引擎的第二保存单元,所述第二保存单元分别与分配单 元和搜索引擎连接。在本技术所述的重复文本识别系统中,还包括在搜索引擎中具有相同群号的数字序列组超过第二阈值时检查这些数字序列组中的数字序列是否为噪音并将所述噪音 对应的数字序列清除出数字序列组的检查单元,所述检查单元与搜索引擎连接。在本技术所述的重复文本识别系统中,还包括对检查单元清除噪音对应的数 字序列后的具有相同群号的数字序列组的相似度重新判断并重新为所述数字序列组设置 群号的重判断单元,所述重判断单元与搜索引擎及检查单元连接。在本技术所述的重复文本识别系统中,还包括将电子文本内容分割所得的短 句进一步分割为术语的再分割单元、用于根据术语在电子文本内容中的位置及出现次数进 行加权计算的术语计算单元、用于根据所述术语计算单元计算的术语的权值计算短句的权 值的短句计算单元以及将短句的权值超过第三阈值的短句对应的数字序列清除出数字序 列组的清扰单元,其中所述再分割单元与分割单元连接,所述术语计算单元与在分割单元 连接,所述清扰单元与术语计算单元和搜索引擎连接。在本技术所述的重复文本识别系统中,所述转换单元为哈希运算单元。本技术的重复文本识别系统具有以下有益效果通过将电子文本内容分割后 的各部分转换为数字序列,并根据数字序列组进行相似度判断,从而提高了相似度判断的 效率及效果。本技术还通过减少数字序列组中的噪音,进一步提升了相似度判断的准 确性。附图说明下面将结合附图及实施例对本技术作进一步说明,附图中图1是本技术重复文本识别系统第一实施例的结构示意图;图2是本技术重复文本识别系统第二实施例的结构示意图;图3是本技术重复文本识别系统第三实施例的结构示意图。具体实施方式如图1所示,是本技术重复文本识别系统第一实施例的结构示意图。该系统 包括分割单元11、转换单元12、搜索引擎13以及判断单元14,其中上述分割单元11、转换 单元12、搜索引擎13及判断单元14依次连接。上述各单元可以位于同一物理设备,也可位 于多个相连的物理设备。分割单元11用于将电子文本内容按照标点符号分割为多个短句,其中作为分割 依据的标点符号可以设定,例如句号、逗号、分号、问号、感叹号等。例如将“去年券商业绩 下滑50% -60%很正常。因为业务萎缩,为了节约开支减少成本我们也裁了一些业务人员。 以前发17个月的工资,现在就发12个月的,相当于变相降薪”分割为短句“去年券商业绩 下滑50% -60%很正常”、“因为业务萎缩”、“为了节约开支减少成本我们也裁了一些业务人 员”、“以前发17个月的工资”、“现在就发12个月的”、“相当于变相降薪”。转换单元12用于将分割后的每一短句转换为一个唯一的且长度固定的数字序 列。在具体实现时,该转换单元12可使用哈希运算等实现电子文本内容到数字序列的转 换。搜索引擎13用于存储数字序列组,其中每一数字序列组包括同一电子文本内容的多个数字序列。判断单元14用于在搜索引擎13中的两个数字序列组的相似度达到第一阈值时确 认对应的电子文本内容为重复文本。上述的相似度是指两个数字序列组中相同的数字序列 的数量等。当然,相似度也可定义为其他方式,例如两个数字序列组中相同的数字序列的比 例等。而第一阈值则可根据精确度要求进行设定,精确度要求越高,第一阈值越大。在上述实施例中,由于将电子文本内容中的所有内容都转换为多个相同长度的数 字序列,降低了比较过程中的计算复杂度,并使得对比更加全面。如图2所示,是本技术重复文本识别系统第二实施例的结构示意图。在该系 统中除了包括分割单元21、转换单元22、搜索引擎23以及判断单元24外,还包括分配单元 25、检查单元28以及重判断单元29,其中该分配单元25连接到判断单元24,检查单元28 连接到搜索引擎23,重判断单元29分别连接到搜索引擎23和检查单元28。分配单元25用于为每一电子文本内容分配一个唯一的内容标识号(ID)。在本实施例中,判断单元24包括第一保存单元26和第二保存单元27,其中第一保 存单元26用于在确认当前电子文本内容对应的数字序列组与搜索引擎23中所有数字序列 组的相似度都小于第一阈值时,将该当前电子文本内容的内容标识号作为群号(ID)并将 该群号与当前电子文本对应的数字序列组一起存储到搜索引擎23 ;第二保存单元27用于 在确认当前电子文本内容对应的数字序列组与搜索引擎23中的相似度最大的数字序列组 的相似度大于或等于第一阈值时,将该相似度最大的数字序列组的群号作为当前电子文本 内容的群号并将该群号与该当前电子文本内容对应的数字序列组一起存储到搜索引擎23。 第一保存单元26和第二保存单元27分别与分配单元25和搜索引擎23连接。检查单元28用于在搜索引擎23中具有相同群号的本文档来自技高网...

【技术保护点】
一种重复文本识别系统,其特征在于,包括:用于将电子文本内容按照标点符号分割为多个短句的分割单元、用于将分割后的每一短句转换为一个唯一的且长度固定的数字序列的转换单元、用于存储数字序列组的搜索引擎、用于在搜索引擎中的两个数字序列组的相似度达到指定阈值时确认对应的电子文本内容为重复文本的判断单元,其中所述搜索引擎中存储的每一数字序列组包括同一电子文本内容的多个数字序列,所述分割单元、转换单元、搜索引擎及判断单元依次连接。

【技术特征摘要】

【专利技术属性】
技术研发人员:胡达明冼家扬
申请(专利权)人:慧科讯业有限公司
类型:实用新型
国别省市:HK[中国|香港]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1