原创文本甄别方法、装置、设备与计算机可读存储介质制造方法及图纸

技术编号:22330160 阅读:60 留言:0更新日期:2019-10-19 12:17
本发明专利技术公开了一种原创文本甄别方法,包括:在接收到待甄别文本后,在预设的原创数据库中获取所述待甄别文本对应的一个以上的待比较对象;对所述待甄别文本进行预处理,以得到一个以上的第一分句;将各个所述第一分句与各个所述待比较对象进行比对,确定所述第一分句中存在的非原创分句;若所述非原创分句在所述待甄别文本中的占比不大于预设的抄袭阈值,则确定所述待甄别文本为原创文本。本发明专利技术还公开了一种原创文本甄别装置、设备和可读存储介质。本发明专利技术将待甄别文本处理为各个分句,将确定待甄别文本是否为原创文本,分解为确定各个分句是否是原创分句,从而通过原创分句的占比,确定待甄别文本是否为原创文本,有效提高原创文本的甄别精度。

【技术实现步骤摘要】
原创文本甄别方法、装置、设备与计算机可读存储介质
本专利技术涉及金融科技(Fintech)
,尤其涉及原创文本甄别方法、装置、设备与计算机可读存储介质。
技术介绍
近年来,随着金融科技(Fintech),尤其是互联网金融的不断发展,数据甄别技术被引入银行等金融机构的日常业务中。在银行等金融机构的日常宣传过程中,为确保宣传文本,如新闻、软文和广告等,不是抄袭他人的抄袭作品,在传播之前,需要对宣传文本的原创性进行审核,只有确保宣传文本是原创文本,才能避免不必要的版权纠纷,并且使原创作品得到应有的价值反馈,因此,对待甄别文本进行原创性甄别是银行等金融机构对外宣传时必做的一项工作。现有做法是,银行等金融机构的公关部门或者其他对外宣传的部门,在将宣传文本对外传播之前,将宣传文本输入计算机,通过计算机将宣传文本与计算机原创数据库中的文本进行比对,通过关键字计算相似度来确定宣传文本的原创性。然而现有做法仅能判断待甄别文本是否存在抄袭,但无法给出具体的抄袭率指标,如果待甄别文本依次从多篇原创文本中各摘抄一段话,那么现有做法无法给出抄袭的结论,并且,对于存在大量主语替换和代词替换等的待甄别文本,很难对其原创性进行甄别,显然,现有甄别方法准确率较低。
技术实现思路
本专利技术的主要目的在于提出一种原创文本甄别方法、装置、设备与计算机可读存储介质,旨在提高原创文本的甄别精度。为实现上述目的,本专利技术提供一种原创文本甄别方法,所述原创文本甄别方法包括如下步骤:在接收到待甄别文本后,在预设的原创数据库中获取所述待甄别文本对应的一个以上的待比较对象;对所述待甄别文本进行预处理,以得到一个以上的第一分句;将各个所述第一分句与各个所述待比较对象进行比对,确定所述第一分句中存在的非原创分句;若所述非原创分句在所述待甄别文本中的占比不大于预设的抄袭阈值,则确定所述待甄别文本为原创文本。优选地,所述在接收到待甄别文本后,在预设的原创数据库中获取所述待甄别文本对应的一个以上的待比较对象的步骤包括:在接收到待甄别文本时,确定所述待甄别文本的文本长度,并将所述待甄别文本截为所述文本长度对应数量的字符串;在预设的原创数据库中获取与所述字符串匹配的匹配对象,并在所述匹配对象中选取预设数量的待比较对象。优选地,所述对所述待甄别文本进行预处理,以得到一个以上的第一分句的步骤包括:基于预设过滤规则,对所述待甄别文本进行过滤,以得到过滤文本;基于预设分句规则,对所述过滤文本进行分句,以得到一个以上的第一分句。优选地,所述基于预设分句规则,对所述过滤文本进行分句,以得到一个以上的第一分句的步骤包括:基于预设分句规则,对所述过滤文本进行分句,以得到各个子句,并依次确定各个子句的字数是否达到预设字数;若当前子句的字数达到所述预设字数,则将当前子句设定为所述第一分句;若当前子句的字数未达到所述预设字数,则将当前子句合并到基于前一子句所设定的所述第一分句中。优选地,所述将各个所述第一分句与各个所述待比较对象进行比对,确定所述第一分句中存在的非原创分句的步骤包括:生成各个所述第一分句对应的第一哈希值;调取各个所述待比较对象对应的哈希值集合,所述哈希值集合中包含多个第二哈希值;将所述第一哈希值与所述第二哈希值进行比较,在所述第一哈希值中,确定与至少一个所述第二哈希值的海明距离小于或等于第一预设值的第三哈希值;在所述第一分句中,将所述第三哈希值对应的分句标记为非原创分句。优选地,在所述将所述第三哈希值对应的分句标记为非原创分句的步骤之后,还包括:若确定所述待甄别文本中第i个第一分句到第i+k第一分句与目标对象中第j分句到第j+k分句的海明距离都未超过第一预设值,则计算所述待甄别文本中第i-n个第一分句与所述目标对象中第j-n分句的第一编辑距离,以及所述待甄别文本中第i+k+m个第一分句与所述目标对象中第j+k+m分句的第二编辑距离,其中,所述目标对象为所述待比较对象中的一个对象,i、j为大于0的常数,k为预设常数,n为1到i的集合,m为1到无穷大的集合,且i+k+m小于等于所述待甄别文本的分句的数量,j+k+m小于等于所述目标对象的分句的数量;若所述第一编辑距离与所述第j-n分句的分句长度的比值小于第二预设值,则将所述第i-n个第一分句标记为非原创分句;若所述第二编辑距离与所述第j+k+m分句的分句长度的比值小于所述第二预设值,则将所述第i+k+m个第一分句标记为非原创分句。优选地,在所述确定所述第一分句中存在的非原创分句之后,还包括:在所述待甄别文本中,统计所述非原创分句的字数,并基于所述字数以及所述待甄别文本的总字数,确定所述非原创分句在所述待甄别文本中的占比。此外,为实现上述目的,本专利技术还提供一种原创文本甄别装置,所述原创文本甄别装置包括:获取模块,用于在接收到待甄别文本后,在预设的原创数据库中获取所述待甄别文本对应的一个以上的待比较对象;预处理模块,用于对所述待甄别文本进行预处理,以得到一个以上的第一分句;第一确定模块,用于将各个所述第一分句与各个所述待比较对象进行比对,确定所述第一分句中存在的非原创分句;第二确定模块,用于若所述非原创分句在所述待甄别文本中的占比不大于预设的抄袭阈值,则确定所述待甄别文本为原创文本。优选地,所述获取模块还用于:在接收到待甄别文本时,确定所述待甄别文本的文本长度,并将所述待甄别文本截为所述文本长度对应数量的字符串;在预设的原创数据库中获取与所述字符串匹配的匹配对象,并在所述匹配对象中选取预设数量的待比较对象。优选地,所述预处理模块还用于:基于预设过滤规则,对所述待甄别文本进行过滤,以得到过滤文本;基于预设分句规则,对所述过滤文本进行分句,以得到一个以上的第一分句。优选地,所述预处理模块还用于:基于预设分句规则,对所述过滤文本进行分句,以得到各个子句,并依次确定各个子句的字数是否达到预设字数;若当前子句的字数达到所述预设字数,则将当前子句设定为所述第一分句;若当前子句的字数未达到所述预设字数,则将当前子句合并到基于前一子句所设定的所述第一分句中。优选地,所述第一确定模块还用于:生成各个所述第一分句对应的第一哈希值;调取各个所述待比较对象对应的哈希值集合,所述哈希值集合中包含多个第二哈希值;将所述第一哈希值与所述第二哈希值进行比较,在所述第一哈希值中,确定与至少一个所述第二哈希值的海明距离小于或等于第一预设值的第三哈希值;在所述第一分句中,将所述第三哈希值对应的分句标记为非原创分句。优选地,所述第一确定模块还用于:若确定所述待甄别文本中第i个第一分句到第i+k第一分句与目标对象中第j分句到第j+k分句的海明距离都未超过第一预设值,则计算所述待甄别文本中第i-n个第一分句与所述目标对象中第j-n分句的第一编辑距离,以及所述待甄别文本中第i+k+m个第一分句与所述目标对象中第j+k+m分句的第二编辑距离,其中,所述目标对象为所述待比较对象中的一个对象,i、j为大于0的常数,k为预设常数,n为1到i的集合,m为1到无穷大的集合,且i+k+m小于等于所述待甄别文本的分句的数量,j+k+m小于等于所述目标对象的分句的数量;若所述第一编辑距离与所述第j-n分句的分句长度的比值小于第二预设值,则将所述第i-n个第一分句标记为非原创分句;若所述第本文档来自技高网...

【技术保护点】
1.一种原创文本甄别方法,其特征在于,所述原创文本甄别方法包括如下步骤:在接收到待甄别文本后,在预设的原创数据库中获取所述待甄别文本对应的一个以上的待比较对象;对所述待甄别文本进行预处理,以得到一个以上的第一分句;将各个所述第一分句与各个所述待比较对象进行比对,确定所述第一分句中存在的非原创分句;若所述非原创分句在所述待甄别文本中的占比不大于预设的抄袭阈值,则确定所述待甄别文本为原创文本。

【技术特征摘要】
1.一种原创文本甄别方法,其特征在于,所述原创文本甄别方法包括如下步骤:在接收到待甄别文本后,在预设的原创数据库中获取所述待甄别文本对应的一个以上的待比较对象;对所述待甄别文本进行预处理,以得到一个以上的第一分句;将各个所述第一分句与各个所述待比较对象进行比对,确定所述第一分句中存在的非原创分句;若所述非原创分句在所述待甄别文本中的占比不大于预设的抄袭阈值,则确定所述待甄别文本为原创文本。2.如权利要求1所述的原创文本甄别方法,其特征在于,所述在接收到待甄别文本后,在预设的原创数据库中获取所述待甄别文本对应的一个以上的待比较对象的步骤包括:在接收到待甄别文本时,确定所述待甄别文本的文本长度,并将所述待甄别文本截为所述文本长度对应数量的字符串;在预设的原创数据库中获取与所述字符串匹配的匹配对象,并在所述匹配对象中选取预设数量的待比较对象。3.如权利要求1所述的原创文本甄别方法,其特征在于,所述对所述待甄别文本进行预处理,以得到一个以上的第一分句的步骤包括:基于预设过滤规则,对所述待甄别文本进行过滤,以得到过滤文本;基于预设分句规则,对所述过滤文本进行分句,以得到一个以上的第一分句。4.如权利要求3所述的原创文本甄别方法,其特征在于,所述基于预设分句规则,对所述过滤文本进行分句,以得到一个以上的第一分句的步骤包括:基于预设分句规则,对所述过滤文本进行分句,以得到各个子句,并依次确定各个子句的字数是否达到预设字数;若当前子句的字数达到所述预设字数,则将当前子句设定为所述第一分句;若当前子句的字数未达到所述预设字数,则将当前子句合并到基于前一子句所设定的所述第一分句中。5.如权利要求1-4任一项所述的原创文本甄别方法,其特征在于,所述将各个所述第一分句与各个所述待比较对象进行比对,确定所述第一分句中存在的非原创分句的步骤包括:生成各个所述第一分句对应的第一哈希值;调取各个所述待比较对象对应的哈希值集合,所述哈希值集合中包含多个第二哈希值;将所述第一哈希值与所述第二哈希值进行比较,在所述第一哈希值中,确定与至少一个所述第二哈希值的海明距离小于或等于第一预设值的第三哈希值;在所述第一分句中,将所述第三哈希值对应的分句标记为非原创分句。6.如权利要求5所述的原创文本甄别方法,其特征在于,在所述...

【专利技术属性】
技术研发人员:蔡远航郑少杰付勇范增虎江旻
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1