基于二元字符频次的字符分组方法及安全字库构建方法技术

技术编号:36403492 阅读:14 留言:0更新日期:2023-01-18 10:11
本发明专利技术特别涉及一种基于二元字符频次的字符分组方法及安全字库构建方法,其中的字符分组方法包括如下步骤:遍历语料库,统计待分组的N个字符中任意两个字符的出现次数得到二元字符频次矩阵;按字频从高到低逐一遍历字符,并按公式计算待分配字符c分配到第k组的权重;将待分配字符c添加至权重最大的组,以此类推直到所有字符完成分组。二元字符频次矩阵反应的就是两个字符出现在一起的频次,通过权重计算公式,让经常出现在一起的两个字符分在不同组时的权重增大,这样我们就能通过选择权重最大的组来让一起出现的字符尽量不同组,从而实现了字符的合理分组,此种分组方式对每组中字符个数不做限制,从而更加合理。从而更加合理。从而更加合理。

【技术实现步骤摘要】
基于二元字符频次的字符分组方法及安全字库构建方法


[0001]本专利技术涉及字库隐形水印
,特别涉及一种基于二元字符频次的字符分组方法及安全字库构建方法。

技术介绍

[0002]在现有的文本水印技术中,为了提高水印算法抵抗打印扫描、屏幕截屏和屏幕拍照等恶意攻击的鲁棒性能,基于字符拓扑结构修改的文本数字水印技术成为主流。即通过将特定字符进行不同形式的变形后对应不同的水印信息位串,字符变形数据会保存在特定的水印字库中,并在电子文本文档打印输出和屏幕显示的过程中,通过字体替换来实现水印信息的嵌入。当我们针对不同的用户使用不同的字符变形数据,对于该用户来说,该特定的水印字库即构成其安全字库。
[0003]现有的安全字库存在很多缺陷,为了实现在不改变用户任何使用习惯的前提下,用以解决现有技术中水印加载通用性差、系统稳定性差、实现过程复杂以及水印算法鲁棒性能低等问题,北京国隐科技有限公司申请的专利《一种通用的文本水印方法和装置》(公布号:CN114708133A)中公开了如下方案:一种通用的文本水印方法,包括以下步骤:根据特定策略对选定字库中一定数目的字符进行分组;根据特定规则对每个分组中的所有字符进行变形设计,并生成水印字符数据临时文件;生成用户终端水印编码数据,用以标识用户终端的身份认证信息;依据水印编码数据,并结合水印字符数据临时文件和分组的字符,动态生成并实时加载水印字库文件;运行电子格式的文本文件,在文件打印输出和屏幕显示的文档内容数据中利用水印字库文件实时嵌入水印信息。
[0004]该方案中需要对字符进行分组。在对字符进行分组时,理论上来说,字频较高的字符,应该分别位于不同组;常出现在一起的字符,应该分别位于不同组。满足这两个要求所生成的安全字库,在进行安全码的提取时,所需要的文字内容更少,因此,提取效果、准确率也更佳。该方案中的字符分组方法存在诸多不足:其一,每组中的字符数基本相等,这与上述的要求有所冲突;其二,分组时只考虑了字频,并没有对词频进行充分考虑,理论上,经常出现的词语中对应的字符,应该分在不同组别中,这样可以在更短的内容中出现更多分组,在进行安全码的提取时所需的内容更少;其三,该方案中对分组进行优化时的计算过程太复杂,需消耗大量的时间和算力。

技术实现思路

[0005]本专利技术的首要目的在于提供一种基于二元字符频次的字符分组方法及安全字库构建方法,能够更加合理的对字符进行分组。
[0006]为实现以上目的,本专利技术采用的技术方案为:一种基于二元字符频次的字符分组方法,包括如下步骤:遍历语料库,统计待分组的N个字符中任意两个字符的出现次数得到二元字符频次矩阵,二元字符频次矩阵的元素代表字符后是字符的频次;按字频从高到低逐一遍历字符,并按如下公式计算待分配字符c分配到第k组的权重:
式中,A为已分组字符和待分配字符c构成的集合,和为大于0的常数且;将待分配字符c添加至权重最大的组,以此类推直到所有字符完成分组。
[0007]与现有技术相比,本专利技术存在以下技术效果:该分组方案主要从二元字符的之间的关联来对字符进行分组,对于经常出现在一起的两个字符,尽量将它们分配在不同的组中,二元字符频次矩阵反应的就是两个字符出现在一起的频次,再通过权重计算公式,让经常出现在一起的两个字符分在不同组时的权重增大,这样我们就能通过选择权重最大的组来让一起出现的字符尽量不同组,从而实现了字符的合理分组,此种分组方式对每组中字符个数不做限制,从而更加合理。
[0008]本专利技术的第二个目的在于提供一种基于上述字符分组方法的安全字库构建方法,提高安全字库的适用性和可靠性。
[0009]为实现以上目的,本专利技术采用的第一个技术方案为:一种安全字库构建方法,包括如下步骤:根据字频排序选择前N个字符,对N个字符分别进行变形设计得到变形字,每个字符的标准字、变形字分别代表0和1;按照权利要求1中的步骤将N个字符分成K组,每个字符仅属于某一组,K为安全字库所表征的安全码编码成的二进制字符串的位数;对于任一个安全码,以每个字符所处组别对应的二进制数选择该字符对应的标准字或变形字,所选出的N个字符的标准字或变形字以及未选择的其他字符的标准字即构成该安全码对应的安全字库。
[0010]为实现以上目的,本专利技术采用的第二个技术方案为:一种安全字库构建方法,包括如下步骤:根据字频排序选择前N个字符,对N个字符分别进行变形设计得到变形字;对每个字符的标准字及其变形字进行二进制编码,该二进制编码的位数x和该字符变形字个数满足如下公式:;按照权利要求1中的步骤将N个字符分成K组,每个字符所处组别数等于该字符对应的二进制编码的位数x,K为安全字库所表征的安全码编码成的二进制字符串的位数;对于任一个安全码,以每个字符所处组别对应的二进制数为二进制编码选择该字符对应的标准字或变形字,所选出的N个字符的标准字或变形字以及未选择的其他字符的标准字即构成该安全码对应的安全字库。
[0011]与现有技术相比,上述两种安全字库构建方法存在以下技术效果:由于上述字符分组更加合理,那么基于上述字符分组方法构建的安全字库也必然更加可靠,同时,将每个字符放在某一个组里构成的安全字库,具有更高的可靠性;上述单个字符放在多个组里构成的安全字库,在提取安全码时平均所需字符个数更少,适用性更强。
附图说明
[0012]图1是本专利技术中字符分组方法的流程图;图2是本专利技术中安全字库构建方法实施例一流程图;图3是本专利技术中安全字库构建方法实施例二流程图。
具体实施方式
[0013]下面结合图1至图3,对本专利技术做进一步详细叙述。
[0014]参阅图1,本专利技术公开了一种基于二元字符频次的字符分组方法,包括如下步骤:遍历语料库,统计待分组的N个字符中任意两个字符的出现次数得到二元字符频次矩阵,二元字符频次矩阵的元素代表字符后是字符的频次;这里待分组的N个字符,一般是根据字频从高到低选出来的前N个字符,N一般取1000~3000,二元字符频次,反映的是字符后是字符的频次,这里并不考虑字符和字符是否属于某个词语,仅仅从位置关系进行考虑。比如针对某一句话“合肥高维数据技术有限公司是一家新型网络安全公司,由中国科大网络安全学院著名教授、校友创建于2014年5月”,字符“合”后面是“肥”的频次记1,字符“肥”后面是“高”的频次记1,依次类推,即使“肥高”不是一个词语,也需要进行统计。在具体统计时,可以忽略符号,此时针对“司,由”,字符“司”后面是“由”的频次加1;也可以考虑符号,此时针对“司,由”来说,字符“司”后面是逗号,字符“由”的前面是逗号,不用增加字符“司”后面是“由”的频次。
[0015]语料库的选择也可以根据用户的需求去选择,即可以选择通用的语料库,也可以选择某个企业或组织的内部语料库,针对不同的语料库,所得到的字符分组也是不同的。
[0016]按字频从高到低逐一遍历字符,并按如下公式计算待分配字符c分配到第k组的权重:式中,A为已分组字符和待分配字符c构成的集合,和为大于0的常数且。通过分析权重的公式本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于二元字符频次的字符分组方法,其特征在于:包括如下步骤:遍历语料库,统计待分组的N个字符中任意两个字符的出现次数得到二元字符频次矩阵,二元字符频次矩阵的元素代表字符后是字符的频次;按字频从高到低逐一遍历字符,并按如下公式计算待分配字符c分配到第k组的权重:式中,A为已分组字符和待分配字符c构成的集合,和为大于0的常数且;将待分配字符c添加至权重最大的组,以此类推直到所有字符完成分组。2.如权利要求1所述的基于二元字符频次的字符分组方法,其特征在于:所述的按字频从高到低逐一遍历字符的步骤之前还包括如下步骤:对二元字符频次矩阵进行归一化得到二元字符频率矩阵;所述待分配字符c分配到每个分组后的权重按如下公式计算:。3.如权利要求2所述的基于二元字符频次的字符分组方法,其特征在于:所述的对二元字符频次矩阵进行归一化得到二元字符频率矩阵中,通过以下任一个公式进行归一化:或者。4.如权利要求1所述的基于二元字符频次的字符分组方法,其特征在于:所述的将待分配字符c添加至权重最大的组包括如下步骤:若权重最大的组只有一个,则将待分配字符c添加至该组中;若权重最大的组有多个,则挑选权重最大的所有组中字符个数最少的组;若字符个数最少的组只有一个,则将待分配字符c添加至该组中;若字符个数最少的组有多个,则将待分配字符c随机添加至其中任一组中。5.如权利要求1所述的基于二元字符频次的字符分组方法,其特征在于:所述的,。6.一种安全字库构建方法,其特征在于:包括如下步骤:根据字频排序选择前N个字符,对N个字符分别进行变形设计得到变形字,每个字符的标准字、变形...

【专利技术属性】
技术研发人员:田辉朱鹏远郭玉刚张志翔
申请(专利权)人:合肥高维数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1