基于二元字符频次的字符分组方法及安全字库构建方法技术

技术编号:36403492 阅读:27 留言:0更新日期:2023-01-18 10:11
本发明专利技术特别涉及一种基于二元字符频次的字符分组方法及安全字库构建方法,其中的字符分组方法包括如下步骤:遍历语料库,统计待分组的N个字符中任意两个字符的出现次数得到二元字符频次矩阵;按字频从高到低逐一遍历字符,并按公式计算待分配字符c分配到第k组的权重;将待分配字符c添加至权重最大的组,以此类推直到所有字符完成分组。二元字符频次矩阵反应的就是两个字符出现在一起的频次,通过权重计算公式,让经常出现在一起的两个字符分在不同组时的权重增大,这样我们就能通过选择权重最大的组来让一起出现的字符尽量不同组,从而实现了字符的合理分组,此种分组方式对每组中字符个数不做限制,从而更加合理。从而更加合理。从而更加合理。

【技术实现步骤摘要】
基于二元字符频次的字符分组方法及安全字库构建方法


[0001]本专利技术涉及字库隐形水印
,特别涉及一种基于二元字符频次的字符分组方法及安全字库构建方法。

技术介绍

[0002]在现有的文本水印技术中,为了提高水印算法抵抗打印扫描、屏幕截屏和屏幕拍照等恶意攻击的鲁棒性能,基于字符拓扑结构修改的文本数字水印技术成为主流。即通过将特定字符进行不同形式的变形后对应不同的水印信息位串,字符变形数据会保存在特定的水印字库中,并在电子文本文档打印输出和屏幕显示的过程中,通过字体替换来实现水印信息的嵌入。当我们针对不同的用户使用不同的字符变形数据,对于该用户来说,该特定的水印字库即构成其安全字库。
[0003]现有的安全字库存在很多缺陷,为了实现在不改变用户任何使用习惯的前提下,用以解决现有技术中水印加载通用性差、系统稳定性差、实现过程复杂以及水印算法鲁棒性能低等问题,北京国隐科技有限公司申请的专利《一种通用的文本水印方法和装置》(公布号:CN114708133A)中公开了如下方案:一种通用的文本水印方法,包括以下步骤:根据特定策略对选定字库中本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于二元字符频次的字符分组方法,其特征在于:包括如下步骤:遍历语料库,统计待分组的N个字符中任意两个字符的出现次数得到二元字符频次矩阵,二元字符频次矩阵的元素代表字符后是字符的频次;按字频从高到低逐一遍历字符,并按如下公式计算待分配字符c分配到第k组的权重:式中,A为已分组字符和待分配字符c构成的集合,和为大于0的常数且;将待分配字符c添加至权重最大的组,以此类推直到所有字符完成分组。2.如权利要求1所述的基于二元字符频次的字符分组方法,其特征在于:所述的按字频从高到低逐一遍历字符的步骤之前还包括如下步骤:对二元字符频次矩阵进行归一化得到二元字符频率矩阵;所述待分配字符c分配到每个分组后的权重按如下公式计算:。3.如权利要求2所述的基于二元字符频次的字符分组方法,其特征在于:所述的对二元字符频次矩阵进行归一化得到二元字符频率矩阵中,通过以下任一个公式进行归一化:或者。4.如权利要求1所述的基于二元字符频次的字符分组方法,其特征在于:所述的将待分配字符c添加至权重最大的组包括如下步骤:若权重最大的组只有一个,则将待分配字符c添加至该组中;若权重最大的组有多个,则挑选权重最大的所有组中字符个数最少的组;若字符个数最少的组只有一个,则将待分配字符c添加至该组中;若字符个数最少的组有多个,则将待分配字符c随机添加至其中任一组中。5.如权利要求1所述的基于二元字符频次的字符分组方法,其特征在于:所述的,。6.一种安全字库构建方法,其特征在于:包括如下步骤:根据字频排序选择前N个字符,对N个字符分别进行变形设计得到变形字,每个字符的标准字、变形...

【专利技术属性】
技术研发人员:田辉朱鹏远郭玉刚张志翔
申请(专利权)人:合肥高维数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1