基于Unicode编码的文本水印嵌入及提取方法技术

技术编号:15200300 阅读:72 留言:0更新日期:2017-04-22 01:47
本发明专利技术公开了一种基于Unicode编码的文本水印嵌入及提取方法,嵌入方法包括:1)将水印信息的每个字符用Unicode编码表示,进而形成一个二进制码串;2)将二进制码串分组并用不可见的Unicode控制字符替换;3)将形成的Unicode控制字符串插入到文本中,实现水印的嵌入。提取方法包括:1)找出被检测文本中的特定Unicode控制字符,去除干扰后得到水印部分的Unicode字符串;2)按照一定规则将这些字符串还原为二进制代码;3)按照Unicode编码规则解码,得到纯文本,实现水印的提取。该方法对文本格式和可见内容不做任何改变,具有良好的隐蔽性和鲁棒性,同时本方法高效简单,易于实现。

Text watermark embedding and extracting method based on Unicode coding

The invention discloses a text watermark embedding and extraction method based on Unicode encoding, the embedding method includes: 1) each character watermark information is expressed by a Unicode encoding, and then form a binary string; 2) the binary code string and packet invisible Unicode control character replacement; 3) will be formed the Unicode control string inserted into the text, embed the watermark. The extraction method includes: 1) find out the detection of specific Unicode in the text control character, remove the interference is obtained after the Unicode string portion of the watermark; 2) according to certain rules of the string reduction to binary code; 3) according to the Unicode encoding decoding rules, pure text, watermark extraction. The method can not change the text format and the visible content, and has good concealment and robustness.

【技术实现步骤摘要】

本专利技术涉及文本的版权保护、信息隐藏
,特别是一种基于Unicode编码的文本水印嵌入及提取方法
技术介绍
现今,计算机网络的相关技术为人们提供了无穷无尽的资源,也方便了人们的日常生活。人们通过浏览相关的Web网页来获取信息已经成为当今社会的一种主旋律。相应地,在纷繁复杂的信息资源当中,版权的私自盗用、信息渠道的安全性等各类问题层不出穷。为此制定出一种新的文本版权保护、信息隐蔽方案迫在眉睫。现如今的文本水印方法主要集中于两大类:基于文本格式的文本水印和基于自然语言的文本水印。前者通过修改行间距、字间距或者对字符字体的特征属性进行微调达到插入及隐蔽信息的目的,但其依赖文本的高级格式,易在拷贝过程中损失。后者是通过语法分析,进行语序变换以达到相应目的,相对于基于文本格式的水印嵌入方法更具鲁棒性与隐蔽性,但受制于目前有限的技术及中文句法的相对复杂性,使得此方法可能会破坏文本的内容和结构,使语句产生歧义。另外,由于水印信息受制于文本篇幅,这也让其嵌入信息容量受到限制。
技术实现思路
本专利技术目的在于提供一种具有不易损失且具有良好鲁棒性的基于Unicode编码的文本水印嵌入及提取方法。实现本专利技术目的的技术解决方案为:一种基于Unicode编码的文本水印嵌入方法,包括步骤1,将水印信息的每个字符用Unicode编码并替换,形成一个不可见Unicode码串;步骤2,查找待嵌入文本中的句号“。”和“.”,将水印重复添加到句号“。”或“.”之前,实现水印的嵌入。进一步地,步骤1中所述Unicode编码采用UTF-16格式,每个字符为4位十六进制数,形成一个十六进制的Unicode码串。进一步地,步骤1中所述将水印信息的每个字符用Unicode编码并替换,形成一个不可见Unicode码串,包括如下步骤:A)将版权人的版权信息转化为二进制数据,其长度为Lbytes;B)将版权信息的二进制数据转换为比特位串,长度为L*8bits;C)将比特位串分成2bit一组的小组,共得到L*4组2bits比特位串;D)将每组的比特位串以00,01,10,11对应Unicode字符串&#8234,‬&#8235,‬&#8237,‬&#8238,‬的规则进行编码;E)将编码完成的字符串以原来二进制位的顺序,重新组合成一长串字符串,作为不可见水印。一种基于Unicode编码的文本水印提取方法,根据所述的基于Unicode编码的文本水印嵌入方法,提取水印信息包括如下步骤:步骤1,在文本中检索由值为0x202a、0x202b、0x202c、0x202d、0x202e的Unicode控制字符组成的长度为8的倍数的字符串;步骤2,检查检索到的字符串,去除重复的字符串,得到水印部分的Unicode字符串;步骤3,将步骤2所得到的水印部分的Unicode字符串,按照0x202a0x202c对应00;0x202b0x202c对应01;0x202d0x202c对应10;0x202e0x202c对应11的规则进行替换,得到一个二进制序列;步骤4,将水印数据以Unicode编码方式解码,即可得到原始水印数据。进一步地,步骤2所述检查检索到的字符串,去除重复的字符串,得到水印部分的Unicode字符串,具体如下:位置序号从0开始,检查字符串内奇数位置上的Unicode字符是否为U+202C:如果不是,则丢弃该字符串;如果是,则保留该字符串;检查字符串内偶数位置上的Unicode字符是否为U+202C:如果是,则丢弃该字符串;如果不是,则保留该字符串。进一步地,步骤3所述将步骤2所得到的水印部分的Unicode字符串,按照0x202a0x202c对应00;0x202b0x202c对应01;0x202d0x202c对应10;0x202e0x202c对应11的规则进行替换,得到一个二进制序列,具体为:将步骤2所得到的水印部分的Unicode字符串,从前往后每8个字符为一组,每个组内根据0x202a0x202c对应00;0x202b0x202c对应01;0x202d0x202c对应10;0x202e0x202c对应11的规则进行替换,还原成二进制位序列,再以由高位到低位的顺序拼接为一个字节,将每个组得出的字节按从前往后的顺序拼接成一段二进制数据。本专利技术与现有技术相比,其显著优点为:(1)利用不可见Unicode控制字符来嵌入水印,对文本格式与可见内容不产生任何改变,对原文本的显示不会产生丝毫影响,水印嵌入没有任何痕迹,不易被察觉和发现,有很好的隐蔽性;(2)对文本进行格式改变、段落调整、部分修改都不会影响水印的正确提取,具有良好的鲁棒性;(3)嵌入与提取的方法简单高效,易于实现。附图说明图1是本专利技术水印信息用Unicode编码并替换的过程示意图。具体实施方法下面对本专利技术方案进行详细说明。因为生成和提取时使用的是不同的Unicode表示方式,为了便于理解html中Unicode表示形式、Unicode编码和Unicode对应的十六进制数的关系,给出表1。表1不可见Unicode控制字符名称Unicode编号HTML代码十六进制数Left-To-RightEmbeddingU+202A‪0x202aRight-To-LeftEmbeddingU+202B‫0x202bPopDirectionalFormattingU+202C‬0x202cLeft-To-RightOverrideU+202D‭0x202dRight-To-LeftOverrideU+202E‮0x202e本专利技术基于Unicode编码的文本水印嵌入方法,包括以下步骤:步骤1,将水印信息的每个字符用Unicode编码并替换,形成一个不可见Unicode码串;所述Unicode编码采用UTF-16格式,每个字符为4位十六进制数,最终形成一个不可见的Unicode码串,包括如下步骤:A)将版权人的版权信息转化为二进制数据,其长度为Lbytes;B)将版权信息的二进制数据转换为比特位串,长度为L*8bits;C)将比特位串分成2bit一组的小组,共得到L*4组2bits比特位串;D)将每组的比特位串以00,01,10,11对应Unicode字符串&#8234,‬&#8235,‬&#8237,‬&#8238,‬的规则进行编码;即00对应‪‬01对应‫‬10对应‭‬11对应‮‬的规则进行替换形成新的字符串,该字符串在Unicode编码格式中不可见;E)将编码完成的字符串以原来二进制位的顺序,重新组合成一长串字符串,作为不可见水印。步骤2,查找待嵌入文本中的句号“。”和“.”,将水印重复添加到句号“。”或“.”之前,实现水印的嵌入。一本文档来自技高网...
基于Unicode编码的文本水印嵌入及提取方法

【技术保护点】
一种基于Unicode编码的文本水印嵌入方法,其特征在于,包括步骤1,将水印信息的每个字符用Unicode编码并替换,形成一个不可见Unicode码串;步骤2,查找待嵌入文本中的句号“。”和“.”,将水印重复添加到句号“。”或“.”之前,实现水印的嵌入。

【技术特征摘要】
1.一种基于Unicode编码的文本水印嵌入方法,其特征在于,包括步骤1,将水印信息的每个字符用Unicode编码并替换,形成一个不可见Unicode码串;步骤2,查找待嵌入文本中的句号“。”和“.”,将水印重复添加到句号“。”或“.”之前,实现水印的嵌入。2.根据权利要求1所述的基于Unicode编码的文本水印嵌入方法,其特征在于,步骤1中所述Unicode编码采用UTF-16格式,每个字符为4位十六进制数,形成一个十六进制的Unicode码串。3.根据权利1要求所述的基于Unicode编码的文本水印嵌入方法,其特征在于,步骤1中所述将水印信息的每个字符用Unicode编码并替换,形成一个不可见Unicode码串,包括如下步骤:A)将版权人的版权信息转化为二进制数据,其长度为Lbytes;B)将版权信息的二进制数据转换为比特位串,长度为L*8bits;C)将比特位串分成2bit一组的小组,共得到L*4组2bits比特位串;D)将每组的比特位串以00,01,10,11对应Unicode字符串&#8234,‬&#8235,‬&#8237,‬&#8238,‬的规则进行编码;E)将编码完成的字符串以原来二进制位的顺序,重新组合成一长串字符串,作为不可见水印。4.一种基于Unicode编码的文本水印提取方法,其特征在于,根据所述的基于Unicode编码的文本水印嵌入方法,提取水印信息包括如下步骤:步骤1,在文本中检索由值为0x202a、0x202b、0x202c、0x202d、0x202e的Unicode控制字符组成的长度为8的倍数的字符串...

【专利技术属性】
技术研发人员:张震宇李千目戚湧王印海
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1