【技术实现步骤摘要】
一种文本数据判断方法、装置、设备及存储介质
[0001]本专利技术实施例涉及信息处理
,尤其涉及一种文本数据判断方法、装置、设备及存储介质。
技术介绍
[0002]随着互联网技术的快速发展,人们可以便捷地通过智能手机、电脑等设备获取各种文档数据,这很容易导致文档所有者的著作权遭到侵害。
[0003]为了解决以上问题,目前常采用零宽字符对文档中的文本进行处理,实现对文档添加水印的效果。其中,零宽字符为不可见、不可打印的字符。然而,当侵权者对文档中的文本进行复制,并基于复制的文本生成新文档时,由于新文档中不会存在零宽字符,这就会导致水印失效。若侵权者使用并传播新文档,文档所有者则无法对侵权者追究相关的责任。因此,亟需一种文本数据保护方法,对文档中的数据进行保护,避免恶意传播和使用。
技术实现思路
[0004]本申请实施例提供了一种文本数据判断方法、装置、设备及存储介质,用于保护文档中的数据。
[0005]一方面,本申请实施例提供了一种文本数据判断方法,该方法包括:
[0006]从第一文档的文本数据中获取多个第一判定数据;
[0007]针对任一第一判定数据,基于所述第一判定数据和预设词库,确定第一比较结果;所述预设词库包括多个预设词;
[0008]从预设判定矩阵中,获取所述第一判定数据对应的第一判定数组;所述预设判定矩阵是基于第二文档的文本数据、所述预设词库以及预设水印数据确定的,所述第二文档是与所述第一文档相对应的原始文档;
[0009]基于所述第一比 ...
【技术保护点】
【技术特征摘要】
1.一种文本数据判断方法,其特征在于,包括:从第一文档的文本数据中获取多个第一判定数据;针对任一第一判定数据,基于所述第一判定数据和预设词库,确定第一比较结果;所述预设词库包括多个预设词;从预设判定矩阵中,获取所述第一判定数据对应的第一判定数组;所述预设判定矩阵是基于第二文档的文本数据、所述预设词库以及预设水印数据确定的,所述第二文档是与所述第一文档相对应的原始文档;基于所述第一比较结果以及所述第一判定数组,确定第一水印比特值;基于获得的多个第一水印比特值以及所述预设水印数据,确定所述第一文档的文本数据是否与所述第二文档的文本数据相同。2.如权利要求1所述的方法,其特征在于,所述从第一文档的文本数据中获取多个第一判定数据,包括:采用预设窗口对所述第一文档的文本数据进行划分,获得多个第一窗口数据;基于第一预设规则,从所述多个第一窗口数据中确定多个第一判定数据。3.如权利要求2所述的方法,其特征在于,所述基于第一预设规则,从所述多个第一窗口数据中确定多个第一判定数据,包括:针对任一第一窗口数据,采用第一哈希编码,对所述第一窗口数据进行编码,获得所述第一窗口数据对应的哈希值;若所述第一窗口数据对应的哈希值是预设水印间隔的倍数,则将所述第一窗口数据作为第一判定数据。4.如权利要求1所述的方法,其特征在于,所述基于所述第一判定数据和预设词库,确定第一比较结果,包括:从所述第一判定数据中,获取第一比较词和第二比较词;确定所述第一比较词和所述第二比较词在所述第一判定数据中的第一次序;确定所述第一比较词和所述第二比较词在所述预设词库中的第二次序;若所述第一次序与所述第二次序相同,则将第一预设值设置为所述第一比较结果;否则,将第二预设值设置为所述第一比较结果。5.如权利要求4所述的方法,其特征在于,所述从所述第一判定数据中,获取第一比较词和第二比较词,包括:采用第二哈希编码对所述第一判定数据进行编码,获得所述第一判定数据对应的哈希值;采用分词技术,对所述第一判定数据进行分词处理,获得所述第一判定数据对应的至少一个比较词;基于所述第一判定数据对应的哈希值以及至少一个比较词,确定所述第一比较词和所述第二比较词。6.如权利要求5所述的方法,其特征在于,所述基于所述第一判定数据对应的哈希值以及至少一个比较词,确定所述第一比较词和所述第二比较词,包括:基于所述第一判定数据对应的哈希值以及至少一个比较词的数量,确定所述第一比较词的位置信息;
基于第二预设规则以及所述第一比较词的位置信息,确定所述第二比较词的位置信息;从所述第一判定数据对应的至少一个比较词中,确定所述第一比较词和所述第二比较词,所述第一比较词为所述第一比较词的位置信息对应的比较词,所述第二比较词为所述第二比较词的位置信息对应的比较词。7.如权利要求1所述的方法,其特征在于,所述从预设判定矩阵中,获取所述第一判定数据对应的第一判定数组,包括:确...
【专利技术属性】
技术研发人员:邓建锋,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。