一种文本数据判断方法、装置、设备及存储介质制造方法及图纸

技术编号:39240330 阅读:10 留言:0更新日期:2023-10-30 11:52
本申请实施例提供了一种文本数据判断方法、装置、设备及存储介质,涉及信息处理技术领域,该方法包括:从第一文档的文本数据中获取多个第一判定数据,针对任一第一判定数据,基于该第一判定数据和预设词库,确定第一比较结果。从预设判定矩阵中,获取第一判定数据对应的第一判定数组;基于第一比较结果以及第一判定数组,确定第一水印比特值;最后,基于获得的多个第一水印比特值以及预设水印数据,确定第一文档的文本数据是否与第二文档的文本数据相同。当侵权者通过复制第二文档获得第一文档后,在使用并传播第一文档时,第二文档的所有者仍可以通过上述方法确定出第一文档的文本数据是否与第二文档的文本数据相同。数据是否与第二文档的文本数据相同。数据是否与第二文档的文本数据相同。

【技术实现步骤摘要】
一种文本数据判断方法、装置、设备及存储介质


[0001]本专利技术实施例涉及信息处理
,尤其涉及一种文本数据判断方法、装置、设备及存储介质。

技术介绍

[0002]随着互联网技术的快速发展,人们可以便捷地通过智能手机、电脑等设备获取各种文档数据,这很容易导致文档所有者的著作权遭到侵害。
[0003]为了解决以上问题,目前常采用零宽字符对文档中的文本进行处理,实现对文档添加水印的效果。其中,零宽字符为不可见、不可打印的字符。然而,当侵权者对文档中的文本进行复制,并基于复制的文本生成新文档时,由于新文档中不会存在零宽字符,这就会导致水印失效。若侵权者使用并传播新文档,文档所有者则无法对侵权者追究相关的责任。因此,亟需一种文本数据保护方法,对文档中的数据进行保护,避免恶意传播和使用。

技术实现思路

[0004]本申请实施例提供了一种文本数据判断方法、装置、设备及存储介质,用于保护文档中的数据。
[0005]一方面,本申请实施例提供了一种文本数据判断方法,该方法包括:
[0006]从第一文档的文本数据中获取多个第一判定数据;
[0007]针对任一第一判定数据,基于所述第一判定数据和预设词库,确定第一比较结果;所述预设词库包括多个预设词;
[0008]从预设判定矩阵中,获取所述第一判定数据对应的第一判定数组;所述预设判定矩阵是基于第二文档的文本数据、所述预设词库以及预设水印数据确定的,所述第二文档是与所述第一文档相对应的原始文档;
[0009]基于所述第一比较结果以及所述第一判定数组,确定第一水印比特值;
[0010]基于获得的多个第一水印比特值以及所述预设水印数据,确定所述第一文档的文本数据是否与所述第二文档的文本数据相同。
[0011]可选地,所述从第一文档的文本数据中获取多个第一判定数据,包括:
[0012]采用预设窗口对所述第一文档的文本数据进行划分,获得多个第一窗口数据;
[0013]基于第一预设规则,从所述多个第一窗口数据中确定多个第一判定数据。
[0014]可选地,所述基于第一预设规则,从所述多个第一窗口数据中确定多个第一判定数据,包括:
[0015]针对任一第一窗口数据,采用第一哈希编码,对所述第一窗口数据进行编码,获得所述第一窗口数据对应的哈希值;
[0016]若所述第一窗口数据对应的哈希值是预设水印间隔的倍数,则将所述第一窗口数据作为第一判定数据。
[0017]可选地,所述基于所述第一判定数据和预设词库,确定第一比较结果,包括:
[0018]从所述第一判定数据中,获取第一比较词和第二比较词;
[0019]确定所述第一比较词和所述第二比较词在所述第一判定数据中的第一次序;
[0020]确定所述第一比较词和所述第二比较词在所述预设词库中的第二次序;
[0021]若所述第一次序与所述第二次序相同,则将第一预设值设置为所述第一比较结果;否则,将第二预设值设置为所述第一比较结果。
[0022]可选地,所述从所述第一判定数据中,获取第一比较词和第二比较词,包括:
[0023]采用第二哈希编码对所述第一判定数据进行编码,获得所述第一判定数据对应的哈希值;
[0024]采用分词技术,对所述第一判定数据进行分词处理,获得所述第一判定数据对应的至少一个比较词;
[0025]基于所述第一判定数据对应的哈希值以及至少一个比较词,确定所述第一比较词和所述第二比较词。
[0026]可选地,所述基于所述第一判定数据对应的哈希值以及至少一个比较词,确定所述第一比较词和所述第二比较词,包括:
[0027]基于所述第一判定数据对应的哈希值以及至少一个比较词的数量,确定所述第一比较词的位置信息;
[0028]基于第二预设规则以及所述第一比较词的位置信息,确定所述第二比较词的位置信息;
[0029]从所述第一判定数据对应的至少一个比较词中,确定所述第一比较词和所述第二比较词,所述第一比较词为所述第一比较词的位置信息对应的比较词,所述第二比较词为所述第二比较词的位置信息对应的比较词。
[0030]可选地,所述从预设判定矩阵中,获取所述第一判定数据对应的第一判定数组,包括:
[0031]确定所述第一判定数据在所述多个第一判定数据中所对应的顺序编号k;
[0032]将所述预设判定矩阵中第k行作为所述第一判定数组。
[0033]可选地,所述基于所述第一比较结果以及所述第一判定数组,确定第一水印比特值,包括:
[0034]按照第三预设规则,从所述第一判定数组中获取第三数值;
[0035]若所述第一比较结果和所述第三数值相同,则将第四预设值设置为所述第一水印比特值;否则,将第五预设值设置为所述第一水印比特值。
[0036]可选地,所述基于获得的多个第一水印比特值以及所述预设水印数据,确定所述第一文档的文本数据是否与所述第二文档的文本数据相同,包括:
[0037]获取所述预设水印数据对应的多个第二水印比特值;
[0038]若所述多个第一水印比特值与相对应的第二水印比特值均相同,则所述第一文档的文本数据与所述第二文档的文本数据相同;否则,所述第一文档的文本数据与所述第二文档的文本数据不同。
[0039]可选地,所述预设判定矩阵是基于第二文档的文本数据、所述预设词库以及预设水印数据确定的,包括:
[0040]对所述预设水印数据进行编码处理,获得所述预设水印数据对应的多个第二水印
比特值;
[0041]从所述第二文档的文本数据中获取多个第二判定数据;
[0042]针对任一第二判定数据,生成所述第二判定数据对应的第二判定数组,所述第二判定数组采用第六预设值进行初始化;
[0043]基于所述第二判定数据和所述预设词库,确定第二比较结果;
[0044]基于所述第二判定数据和所述多个第二水印比特值,确定第一参考结果;
[0045]若所述第二比较结果和所述第一参考结果相同,则将所述第二判定数组中部分位置更新为第七预设值;否则,将所述第二判定数组中部分位置更新为第八预设值;
[0046]基于获得的多个第二判定数组,组成所述预设判定矩阵。
[0047]一方面,本申请实施例提供了一种文本数据判断装置,该装置包括:
[0048]获取模块,用于从第一文档的文本数据中获取多个第一判定数据;
[0049]确定模块,用于针对任一第一判定数据,基于所述第一判定数据和预设词库,确定第一比较结果;所述预设词库包括多个预设词;
[0050]所述获取模块,用于从预设判定矩阵中,获取所述第一判定数据对应的第一判定数组;所述预设判定矩阵是基于第二文档的文本数据、所述预设词库以及预设水印数据确定的,所述第二文档是与所述第一文档相对应的原始文档;
[0051]所述确定模块,用于基于所述第一比较结果以及所述第一判定数组,确定第一水印比特值;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本数据判断方法,其特征在于,包括:从第一文档的文本数据中获取多个第一判定数据;针对任一第一判定数据,基于所述第一判定数据和预设词库,确定第一比较结果;所述预设词库包括多个预设词;从预设判定矩阵中,获取所述第一判定数据对应的第一判定数组;所述预设判定矩阵是基于第二文档的文本数据、所述预设词库以及预设水印数据确定的,所述第二文档是与所述第一文档相对应的原始文档;基于所述第一比较结果以及所述第一判定数组,确定第一水印比特值;基于获得的多个第一水印比特值以及所述预设水印数据,确定所述第一文档的文本数据是否与所述第二文档的文本数据相同。2.如权利要求1所述的方法,其特征在于,所述从第一文档的文本数据中获取多个第一判定数据,包括:采用预设窗口对所述第一文档的文本数据进行划分,获得多个第一窗口数据;基于第一预设规则,从所述多个第一窗口数据中确定多个第一判定数据。3.如权利要求2所述的方法,其特征在于,所述基于第一预设规则,从所述多个第一窗口数据中确定多个第一判定数据,包括:针对任一第一窗口数据,采用第一哈希编码,对所述第一窗口数据进行编码,获得所述第一窗口数据对应的哈希值;若所述第一窗口数据对应的哈希值是预设水印间隔的倍数,则将所述第一窗口数据作为第一判定数据。4.如权利要求1所述的方法,其特征在于,所述基于所述第一判定数据和预设词库,确定第一比较结果,包括:从所述第一判定数据中,获取第一比较词和第二比较词;确定所述第一比较词和所述第二比较词在所述第一判定数据中的第一次序;确定所述第一比较词和所述第二比较词在所述预设词库中的第二次序;若所述第一次序与所述第二次序相同,则将第一预设值设置为所述第一比较结果;否则,将第二预设值设置为所述第一比较结果。5.如权利要求4所述的方法,其特征在于,所述从所述第一判定数据中,获取第一比较词和第二比较词,包括:采用第二哈希编码对所述第一判定数据进行编码,获得所述第一判定数据对应的哈希值;采用分词技术,对所述第一判定数据进行分词处理,获得所述第一判定数据对应的至少一个比较词;基于所述第一判定数据对应的哈希值以及至少一个比较词,确定所述第一比较词和所述第二比较词。6.如权利要求5所述的方法,其特征在于,所述基于所述第一判定数据对应的哈希值以及至少一个比较词,确定所述第一比较词和所述第二比较词,包括:基于所述第一判定数据对应的哈希值以及至少一个比较词的数量,确定所述第一比较词的位置信息;
基于第二预设规则以及所述第一比较词的位置信息,确定所述第二比较词的位置信息;从所述第一判定数据对应的至少一个比较词中,确定所述第一比较词和所述第二比较词,所述第一比较词为所述第一比较词的位置信息对应的比较词,所述第二比较词为所述第二比较词的位置信息对应的比较词。7.如权利要求1所述的方法,其特征在于,所述从预设判定矩阵中,获取所述第一判定数据对应的第一判定数组,包括:确...

【专利技术属性】
技术研发人员:邓建锋
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1