文档检测方法及装置制造方法及图纸

技术编号:8300801 阅读:149 留言:0更新日期:2013-02-07 04:14
本发明专利技术提供一种文档检测方法,包括:获取与文档相应地段落特征信息;将所述文档的段落特征信息与至少一个已有文档的段落特征信息进行比对;根据所述比对结果判断是否具有与所述文档相似的已有文档。本发明专利技术通过段落特征信息对文档进行检测,可较为准确地进行文档之间的相似度比对,避免了对文档分段处理的作弊行为,且查询效率较高、服务器处理压力较小;将该文档检测方法用于改善在线文档版权属性检测,可在文档上传时,即对该文档进行检测,以避免后续对文档版权属性检测时,给服务器造成的不必要压力;同时,可批量的处理已有文档的版权属性检测,效率较高。

【技术实现步骤摘要】

本专利技术涉及一种文档检测方法及装置,尤其是指一种用于比对长文档相似度的文档检测方法及装置。
技术介绍
通常地,用于文档相似度的文档检测方法是通过文档的标题、作者、字词信息进行确认。然而,这样的做法具有以下缺陷首先,通过文档的标题、作者、字词信息查询,容易产生遗漏,例如,将该文档的标题、作者信息修改或删除,或者将文档切分为多个部分,以使得通过字词信息无法准确的查询或比对其他文档;其次,如果待查询的文档篇幅较长,如一部长篇小说,则通过字词信息进行查询,查询效率较低、服务器或计算机处理压力较大,影响服务器或计算机的正常工作效率。
技术实现思路
本专利技术的目的在于提供一种经过改进的文档检测方法。本专利技术的另一目的在于一种经过改进的文档检测装置,所述的装置应用所述的经过改进的文档检测方法。相应地,本专利技术的一种实施方式的文档检测方法,包括SI、获取与文档相应地段落特征信息;S2、将所述文档的段落特征信息与至少一个已有文档的段落特征信息进行比对;S3、根据所述比对结果判断是否具有与所述文档相似的已有文档;其中,所述获取与文档相应地段落特征信息包括S100、对文档中每一个段落进行切词,得到该段落的词和词频的二元组列表;S101、对所述列表中的二元组进行初始权重向量计算;S102、将所述二元组通过哈希算法进行计算,得到预设特征位的哈希字符串;S103、将所述哈希字符串映射至所述权重向量中;S104、计算权重向量对应位的值,获得段落特征信息。作为本专利技术的进一步改进,所述段落特征信息为预设特征位的段落签名。作为本专利技术的进一步改进,所述S103步骤具体包括判断所述哈希字符串中的每一位是O还是1,若是O的话,则在映射至所述权重向量相应位时,对该位进行减权;若是I的话,则在映射至所述权重向量相应位时,对该位进行加权。作为本专利技术的进一步改进,所述S104步骤具体包括判断所述权重向量对应位的值是否大于O ;若大于0,则将所述权重向量对应位的值设为1,若小于等于0,则将该权重向量对应位的值设为O。作为本专利技术的进一步改进,当所述文档与所述已有文档的相似段落数与所述文档的总段落数的比值大于等于设定的第二阈值时,判定所述文档与已有文档相似;当所述文档与所述已有文档的相似段落数与所述文档的总段落数的比值小于设定的第二阈值时,则判定所述文档与已有文档不相似。作为本专利技术的进一步改进,当所述文档与所述已有文档的相似段落数与所述文档的总段落数的比值大于等于设定的第二阈值时,且所述文档的总段落签名与所述已有文档的总段落签名计算结果小于第一阈值,判定所述文档与已有文档相似;当所述文档与所述已有文档的相似段落数与所述文档的总段落数的比值小于设定的第二阈值时,则判定所述文档与已有文档不相似。作为本专利技术的进一步改进,所述相似段落是通过以下步骤得到的通过算法将所述文档得到预设特征位的段落签名与已有文档的预设特征位的段落签名进行计算,若计算结果大于预定的第一阈值,则所述段落不相似;若计算结果小于等于预定的第一阈值,则所述段落相似。作为本专利技术的进一步改进,所述“通过算法将所述文档得到预设特征位的段落签 名与已有文档的预设特征位的段落签名进行计算”是通过汉明码距离计算所述文档的段落签名与所述已有文档的段落签名的距离。作为本专利技术的进一步改进,将与已有文档相似的所述文档的版权属性定义为盗版文档。作为本专利技术的进一步改进,将与已有文档相似的所述文档的版权属性定义为疑似盗版文档。作为本专利技术的进一步改进,审核所述疑似盗版文档,若审核确认所述疑似盗版文档为盗版文档,则发送反馈信息;若审核确认所述疑似盗版文档为非盗版文档,则在线发布所述非盗版文档。作为本专利技术的进一步改进,将与所述文档相似的一个或多个所述已有文档的版权属性定义为盗版文档。作为本专利技术的进一步改进,将与所述文档相似的一个或多个所述已有文档的属性定义为疑似盗版文档。作为本专利技术的进一步改进,审核所述疑似盗版文档,若审核确认所述疑似盗版文档为盗版文档,则删除所述盗版文档;若审核确认所述疑似盗版文档为非盗版文档,则保留所述非盗版文档。作为本专利技术的进一步改进,将所述非盗版文档的版权属性标记为已验证,和/或将所述非盗版文档复制/移动至已验证版权数据库。作为本专利技术的进一步改进,重复权利要求17步骤,直至完成对所有已有文档的筛选。作为本专利技术的进一步改进,根据所述判断结果得到所述文档的版权属性。作为本专利技术的进一步改进,在所述SI步骤前,还包括构建所述已有文档的段落特征信息步骤获取已验证为正版的数字文件;提取所述数字文件的段落特征信息并建立索引。作为本专利技术的进一步改进,所述“构建所述已有文档的段落特征信息”步骤还包括识别所述数字文件是否为文档;若是,则提取所述文档的段落特征信息并建立索引,若否,则通过算法将所述数字文件转换为文档后,提取所述文档的段落特征信息并建立索引。作为本专利技术的进一步改进,在所述“构建所述已有文档的段落特征信息”步骤后,还包括接收上传的未验证版权属性的数字文件。作为本专利技术的进一步改进,在所述“接收上传的未验证版权属性的数字文件”步骤后,还包括判断所述数字文件是否为文档;若是,则执行SI步骤,若否,则通过算法将所述数字文件转换为文档后,执行SI步骤。作为本专利技术的进一步改进,在所述SI步骤前,还包括将所述文档进行存储。作为本专利技术的进一步改进,根据所述判断结果得到所述已有文档的版权属性。作为本专利技术的进一步改进,在所述SI步骤前,还包括构建所述已有文档的段落特征信息步骤获取已有的未验证版权属性的数字文件;提取所述数字文件的段落特征信息并建立索引。作为本专利技术的进一步改进,所述“构建所述已有文档的段落特征信息”步骤还包括识别所述数字文件是否为文档;若是,则提取所述文档的段落特征信息并建立索引,若否,则通过算法将所述数字文件转换为文档后,提取所述文档的段落特征信息并建立索引。作为本专利技术的进一步改进,在所述“构建所述已有文档的段落特征信息”步骤后,还包括接收已验证为正版的数字文件。作为本专利技术的进一步改进,在所述“接收已验证为正版的数字文件”步骤后,还包括判断所述数字文件是否为文档;若是,则执行SI步骤,若否,则通过算法将所述数字文件转换为文档后,执行SI步骤。相应地,本专利技术的一种实施方式的文档检测装置,包括获取单元,用于对文档中每一个段落进行切词,得到该段落的词和词频的二元组列表;对所述列表中的二元组进行初始权重向量计算;将所述二元组通过哈希算法进行计算,得到预设特征位的哈希字符串;将所述哈希字符串映射至所述权重向量中;计算权重向量对应位的值,获得段落特征信息;比对单元,用于将所述文档的段落特征信息与至少一个已有文档的段落特征信息进行比对;判断单元,用于根据所述比对结果判断是否具有与所述文档相似的已有文档。作为本专利技术的进一步改进,所述段落特征信息为预设特征位的段落签名。作为本专利技术的进一步改进,所述获取装置用于判断所述哈希字符串中的每一位是O还是I,若是O的话,则在映射至所述权重向量相应位时,对该位进行减权;若是I的话,则在映射至所述权重向量相应位时,对该位进行加权。作为本专利技术的进一步改进,所述获取装置用于判断所述权重向量对应位的值是否大于O ;若大于O,则将所述权重向量对应位的值设为I,若小于等于O,则将该权重向量对应位的值设为O本文档来自技高网...

【技术保护点】
一种文档检测方法,其特征在于,所述文档检测方法包括以下步骤:S1、获取与文档相应地段落特征信息;S2、将所述文档的段落特征信息与至少一个已有文档的段落特征信息进行比对;S3、根据所述比对结果判断是否具有与所述文档相似的已有文档;其中,所述获取与文档相应地段落特征信息包括:S100、对文档中每一个段落进行切词,得到该段落的词和词频的二元组列表;S101、对所述列表中的二元组进行初始权重向量计算;S102、将所述二元组通过哈希算法进行计算,得到预设特征位的哈希字符串;S103、将所述哈希字符串映射至所述权重向量中;S104、计算权重向量对应位的值,获得段落特征信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:周纾李彦宏徐兴军张雯
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1