文章查重方法、装置和电子设备制造方法及图纸

技术编号:22330138 阅读:33 留言:0更新日期:2019-10-19 12:17
本发明专利技术提供了一种文章查重方法,包括:将待查文章分割为至少一个文本片段;确定至少一个文本片段中与原创文本片段相似的文本片段,原创文本片段是通过分割原创文章而产生的;以及基于与原创文本片段相似的文本片段,确定待查文章是否与原创文章重复,其中确定相似的文本片段包括:根据文本片段的哈希值确定命中筛选器的文本片段,该筛选器基于原创文本片段的哈希值,根据命中筛选器的文本片段的关键词签名在原创文本片段索引中查找原创文本片段,计算文本片段和查找到的原创文本片段的相似度,以及基于相似度确定与原创文本片段相似的文本片段。本发明专利技术能够快速准确地辨别用户提交的文章是否与已有的文章重复。

【技术实现步骤摘要】
文章查重方法、装置和电子设备
本公开涉及计算机
,更具体地,涉及一种文章查重方法、装置、电子设备和计算机可读介质。
技术介绍
随着计算机和互联网技术的快速发展,出现了网络问答社区,其连接各行各业的用户。在这种网络问答社区上,用户可以分享彼此的知识、经验和见解,为互联网源源不断地提供多种多样的信息。然而,用户们提供的文章质量参差不齐,甚至会出现各种涉嫌抄袭和侵权的文章。由于互联网上存在着海量原创文章,而且判重标准单一,现有技术存在查重效率低,准确性差的问题。因此,有必要提供一种解决方案,其能够快速准确地辨别用户提交的文章是否与已有的文章重复。
技术实现思路
有鉴于此,提供本专利技术的第一方面,提供了一种文章查重方法,包括:将待查文章分割为至少一个文本片段;确定所述至少一个文本片段中与原创文本片段相似的文本片段,所述原创文本片段是通过分割原创文章而产生的;以及基于所述与原创文本片段相似的文本片段,确定所述待查文章是否与原创文章重复。在该文章查重方法中,确定所述至少一个文本片段中与原创文本片段相似的文本片段包括根据所述文本片段的哈希值确定命中筛选器的文本片段,所述筛选器基于所述原创文本片段的哈希值,根据命中所述筛选器的文本片段的关键词签名在原创文本片段索引中查找原创文本片段,计算所述文本片段和查找到的原创文本片段的相似度;以及基于所述相似度确定所述与原创文本片段相似的文本片段。在一个实施例中,所述分割可以包括按照句号、问号、叹号、分号分割文章为文本片段;对于字数少于或等于第一字数的文本片段,与在后的文本片段合并;以及对于字数大于或等于第二字数的文本片段,进一步按照逗号进行分割,以及将逗号分割的文本片段与在后的文本片段合并,以产生字数的大于或等于第三字数的文本片段。在一个实施例中,所述筛选器可以包括位序列,所述文本查重方法还可以包括:利用多个哈希函数计算原创文本片段的多个哈希值;以及基于原创文本片段的多个哈希值,置位所述位序列中相应的位。在一个实施例中,所述文本查重方法还可以包括:计算来自所述待查文章的文本片段的多个哈希值;如果所述位序列中与所述文本片段的所述多个哈希值对应的位都已置位,确定所述文本片段命中所述筛选器。在一个实施例中,所述文本查重方法还可以包括:利用编辑距离算法计算所述文本片段和所述查找到的原创文本片段的相似度。在一个实施例中,所述原创文本片段索引还可以包括作者标识符,所述方法还可以包括:如果所述文本片段和所述查找到的原创文本片段的作者标识符相同,忽略所述文本片段。在一个实施例中,所述原创文本片段索引还可以包括文章标识符,所述方法还包括提供原创文章索引,所述原创文章索引包括文章标识符、文章字数、文章包括的文本片段的数量中的至少一个,所述方法还可以包括:基于所述相似的文本片段、所述原创文本片段索引和所述原始文章索引,确定所述待查文章是否与原创文章重复。在一个实施例中,所述方法还可以包括基于以下标准中的至少一项确定所述待查文章与原创文章重复:所述待查文章中超过一定比例的文本片段或字数被确定为原创文本片段相似;和/或单个原创文章中超过一定比例的文本片段或字数与来自所述待查文章相似。根据本专利技术的第二方面,提供了一种文章查重装置,包括:文章分割单元,被配置用于将待查文章分割为至少一个文本片段;相似文本片段确定单元,被配置用于确定所述至少一个文本片段中与原创文本片段相似的文本片段,所述原创文本片段是通过分割原创文章而产生的;以及重复文章确定单元,被配置用于基于所述与原创文本片段相似的文本片段,确定所述待查文章是否与原创文章重复,其中,相似文本片段确定单元还被配置用于:根据所述文本片段的哈希值确定命中筛选器的文本片段,所述筛选器基于所述原创文本片段的哈希值;根据命中所述筛选器的文本片段的关键词签名在原创文本片段索引中查找原创文本片段;计算所述文本片段和查找到的原创文本片段的相似度;以及基于所述相似度确定所述与原创文本片段相似的文本片段。根据本专利技术的第三方面,提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如第一方面所述的方法。根据本专利技术的第四方面,提供了一种计算机可读介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如本专利技术第一方面所述的方法。相比于现有技术,本专利技术能够快速准确地辨别用户提交的文章是否与已有的文章重复。附图说明图1示出了根据本专利技术实施例的文章查重系统的示意框图。图2示出了根据本专利技术实施例的筛选器的示意图。图3A示出了根据本专利技术实施例的原创文章索引表的示意图。图3B示出了根据本专利技术实施例的原创文本片段索引表的示意图。图4示出了根据本专利技术实施例的用于确定文本片段相似性的方法示意流程图。图5示出了根据本专利技术实施例的文章查重方法的示意流程图。图6示出了根据本专利技术实施例的文章查重装置的示意框图。图7示出了用于实现本专利技术的实施例的电子设备的结构示意图。具体实施方式以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思,除非上下文另外明确指出。此外,在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。本公开的实施例提供了一种文章查重方法,包括:将待查文章分割为至少一个文本片段;确定所述至少一个文本片段中的每个文本片段是否与原创文本片段相似,所述原创文本片段是基于分割原创文章而产生的;以及基于所述相似的文本片段,确定所述待查文章是否与原创文章重复,其中确定所述至少一个文本片段中的每个文本片段是否与原创文本片段相似包括:基于关于原创文本片段的筛选器和文本片段索引,确定与原创文本片段匹配的文本片段,所述筛选器基于所述原创文本片段的哈希值,所述文本片段索引包括片段关键词签名;计算所述匹配的文本片段和对应的原创文本片段的相似度;以及基于所述相似度确定所述文本片段是否与原创文本片段相似。根据本公开的实施例,待查重文章和原创文章通过可以通过相同的分片方法分割为若干个文本片段,通过将待查重文章的文本片段与原创文章的文本片段进行匹配,可以确定它们是否相似。然后,可以基于这种相似程度来确定待查重文章是否与原创文章重复。相比于现有技术,本专利技术可以更快且更准确地确定文本片段是否相似,而且能够基于多种标准来灵活地确定文章是否重复。以下将结合附图来详细描述本专利技术的实施例及其优点。图1示出了根据本专利技术实施例的文章查重系统100的示意框图。文章查重系统100包括原创库模块110、分片模块120、查重模块130和原创度计算模块140。原创库模块110用于存储网站内的优质本文档来自技高网...

【技术保护点】
1.一种文章查重方法,包括:将待查文章分割为至少一个文本片段;确定所述至少一个文本片段中与原创文本片段相似的文本片段,所述原创文本片段是通过分割原创文章而产生的;以及基于所述与原创文本片段相似的文本片段,确定所述待查文章是否与原创文章重复,其中确定所述至少一个文本片段中与原创文本片段相似的文本片段包括根据所述文本片段的哈希值确定命中筛选器的文本片段,所述筛选器基于所述原创文本片段的哈希值;根据命中所述筛选器的文本片段的关键词签名在原创文本片段索引中查找原创文本片段;计算所述文本片段和查找到的原创文本片段的相似度;以及基于所述相似度确定所述与原创文本片段相似的文本片段。

【技术特征摘要】
1.一种文章查重方法,包括:将待查文章分割为至少一个文本片段;确定所述至少一个文本片段中与原创文本片段相似的文本片段,所述原创文本片段是通过分割原创文章而产生的;以及基于所述与原创文本片段相似的文本片段,确定所述待查文章是否与原创文章重复,其中确定所述至少一个文本片段中与原创文本片段相似的文本片段包括根据所述文本片段的哈希值确定命中筛选器的文本片段,所述筛选器基于所述原创文本片段的哈希值;根据命中所述筛选器的文本片段的关键词签名在原创文本片段索引中查找原创文本片段;计算所述文本片段和查找到的原创文本片段的相似度;以及基于所述相似度确定所述与原创文本片段相似的文本片段。2.根据权利要求1所述的方法,其中所述分割包括:按照句号、问号、叹号、分号分割文章为文本片段;对于字数少于或等于第一字数的文本片段,与在后的文本片段合并;以及对于字数大于或等于第二字数的文本片段,进一步按照逗号进行分割,以及将逗号分割的文本片段与在后的文本片段合并,以产生字数的大于或等于第三字数的文本片段。3.根据权利要求1所述的方法,其中所述筛选器包括位序列,所述方法还包括:利用多个哈希函数计算原创文本片段的多个哈希值;以及基于原创文本片段的多个哈希值,置位所述位序列中相应的位。4.根据权利要求3所述的方法,还包括:计算来自所述待查文章的文本片段的多个哈希值;如果所述位序列中与所述文本片段的所述多个哈希值对应的位都已置位,确定所述文本片段命中所述筛选器。5.根据权利要求1所述的方法,其中,所述原创文本片段索引还包括作者标识符,所述方法还包括:如果所述文本片段和所述查找到的原创文本片段的作者标识符相同,忽略所述文本片段。6.根据权利要求1所述的方法,其...

【专利技术属性】
技术研发人员:刘兆来李大任李大海
申请(专利权)人:知者信息技术服务成都有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1