一种文档重复度检测方法、装置、设备和介质制造方法及图纸

技术编号:26971296 阅读:30 留言:0更新日期:2021-01-06 00:02
本申请公开了一种文档重复度检测方法、装置、设备和介质,涉及计算机技术领域和人工智能技术领域。具体实现方案为:得到待检测文档的至少一个语句数字签名;将所述待检测文档的语句数字签名,在过渡文档样本库的语句数字签名中进行匹配,得到第一匹配结果,所述过渡文档样本库中文档为通过审核且未上线发布的文档;根据所述第一匹配结果的匹配情况,将所述待检测文档的语句数字签名在线上文档样本库的语句数字签名中进行匹配,得到第二匹配结果,所述线上文档样本库中文档为上线发布文档;根据匹配结果,对所述待检测文档进行重复度检测,所述匹配结果包括所述第一匹配结果和/或所述第二匹配结果。本申请实施例可以提高重复文档的检测效率。

【技术实现步骤摘要】
一种文档重复度检测方法、装置、设备和介质
本申请涉及计算机
,尤其涉及人工智能
具体涉及一种文档重复度检测方法、装置、设备和介质
技术介绍
目前,网络上出现了大量的抄袭他人作品的文档。可以审核并拦截上传重复文档,从源头杜绝重复文档的上传,达到保护版权的效果。现有重复文档的检测方式为:将文档与全部文档进行逐一比对,这种检测方式效率低。
技术实现思路
本申请提供了一种文档重复度检测方法、装置、设备和介质。根据本申请的一方面,提供了一种文档重复度检测方法,所述方法包括:采用数字签名算法对待检测文档中的至少一个语句进行运算,得到所述待检测文档的至少一个语句数字签名;将所述待检测文档的语句数字签名,在过渡文档样本库的语句数字签名中进行匹配,得到第一匹配结果,所述过渡文档样本库中文档为通过审核且未上线发布的文档;根据所述第一匹配结果的匹配情况,将所述待检测文档的语句数字签名在线上文档样本库的语句数字签名中进行匹配,得到第二匹配结果,所述线上文档样本库中文档为上线发布文档;根据匹配结果本文档来自技高网...

【技术保护点】
1.一种文档重复度检测方法,所述方法包括:/n采用数字签名算法对待检测文档中的至少一个语句进行运算,得到所述待检测文档的至少一个语句数字签名;/n将所述待检测文档的语句数字签名,在过渡文档样本库的语句数字签名中进行匹配,得到第一匹配结果,所述过渡文档样本库中文档为通过审核且未上线发布的文档;/n根据所述第一匹配结果的匹配情况,将所述待检测文档的语句数字签名在线上文档样本库的语句数字签名中进行匹配,得到第二匹配结果,所述线上文档样本库中文档为上线发布文档;/n根据匹配结果,对所述待检测文档进行重复度检测,所述匹配结果包括所述第一匹配结果和/或所述第二匹配结果。/n

【技术特征摘要】
1.一种文档重复度检测方法,所述方法包括:
采用数字签名算法对待检测文档中的至少一个语句进行运算,得到所述待检测文档的至少一个语句数字签名;
将所述待检测文档的语句数字签名,在过渡文档样本库的语句数字签名中进行匹配,得到第一匹配结果,所述过渡文档样本库中文档为通过审核且未上线发布的文档;
根据所述第一匹配结果的匹配情况,将所述待检测文档的语句数字签名在线上文档样本库的语句数字签名中进行匹配,得到第二匹配结果,所述线上文档样本库中文档为上线发布文档;
根据匹配结果,对所述待检测文档进行重复度检测,所述匹配结果包括所述第一匹配结果和/或所述第二匹配结果。


2.根据权利要求1所述的方法,其中,根据所述第一匹配结果的匹配情况,将所述待检测文档的语句数字签名在线上文档样本库的语句数字签名中进行匹配,包括:
如果所述第一匹配结果的匹配情况为,匹配的语句数字签名未达到重复数量门限值,则触发将所述待检测文档的语句数字签名在线上文档样本库的语句数字签名中进行匹配。


3.根据权利要求1所述的方法,其中,根据匹配结果,对所述待检测文档进行重复度检测,包括:
获取匹配结果包括的至少一个匹配语句数字签名,所述匹配语句数字签名与所述待检测文档的任一语句数字签名匹配;
查询各所述匹配语句数字签名对应的候选文档;
统计各所述候选文档中匹配语句数字签名的匹配数量;
如果所述目标候选文档的匹配数量与所述待检测文档的语句数字签名数量的比值大于等于设定比值,确定所述待检测文档为重复文档。


4.根据权利要求3所述的方法,其中,在查询各所述匹配语句数字签名对应的候选文档的同时,还包括:
建立资源列表,所述资源列表中包括匹配语句数字签名与候选文档之间的对应关系;
统计各所述候选文档中匹配语句数字签名的匹配数量,包括:
根据所述资源列表,将属于同一候选文档的匹配语句数字签名进行合并;
根据合并后的匹配语句数字签名,统计各所述候选文档中匹配语句数字签名的数量。


5.根据权利要求3所述的方法,其中,查询各所述匹配语句数字签名对应的候选文档,包括:
根据预先建立的文档与语句数字签名之间的关系图谱,查询各所述匹配语句数字签名对应的候选文档;
其中,所述关系图谱包括:正排索引关系图谱或倒排索引关系图谱,所述正排索引关系图谱包括文档与语句数字签名的索引关系,所述倒排索引关系图谱包括语句数字签名与文档的索引关系。


6.根据权利要求1所述的方法,其中,根据匹配结果,对所述待检测文档进行重复度检测,包括:
获取所述匹配结果中匹配语句数字签名对应的候选文档;
根据各所述候选文档中匹配语句数字签名的数量,从各所述候选文档中筛选出至少一个目标候选文档;
将所述待检测文档的正文与各所述目标候选文档的正文进行文本匹配,得到第三匹配结果;
根据所述第三匹配结果,确定所述待检测文档的重复检测结果。


7.根据权利要求1-6任一所述的方法,其中,根据匹配结果,对所述待检测文档进行重复度检测,包括:
获取所述待检测文档的辅助判断数据,所述待检测文档的辅助判断数据包括:所述待检测文档的标题和/或所述待检测文档发起用户的历史文档中重复文档的占比;
根据所述匹配结果和所述辅助判断数据,确定所述待检测文档的重复检测结果。


8.根据权利要求1所述的方法,其中,采用数字签名算法对待检测文档中的至少一个语句进行运算之前,还包括:
获取所述待检测文档包括的至少一个语句;
在各所述语句中删除黑名单中语句,包括所述黑名单中语句所属的文档数量达到文档数量门限值。


9.根据权利要求1所述的方法,其中,在对所述待检测文档进行重复度检测之后,还包括:
建立所述待检测文档与各所述语句数字签名的正排索引关系,并确定为所述待检测文档的索引关系;或
建立各所述语句数字签名与所述待检测文档的倒排索引关系,并确定为所述待检测文档的索引关系;
在所述待检测文档为非重复文档时,将所述待检测文档的索引关系添加到所述过渡文档样本库的关系图谱中;
在所述待检测文档发布时,将所述待检测文档的索引关系添加到所述线上文档样本库的关系图谱中。


10.一种文档重复度检测装置,所述装置包括:
签名运算模块,用于采用数字签名算法对待检测文档中的至少一个语句进行运算,得到所述待检测文档的至少一个语句数字签名;
第一库匹配模块,用于将所述待检测文档的语句数字签名,在过渡文档样本库的语句数字签名中进行匹配,得到第一匹配结果,所述过渡文档样本库中文档为通过审核且未上线发布的文档;
第二库匹配模块,用于根据所述第一匹配结果的匹配情况,将...

【专利技术属性】
技术研发人员:孙增旺武园园于一笑
申请(专利权)人:百度中国有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1