当前位置: 首页 > 专利查询>青岛大学专利>正文

一种基于汉语拼音多重映射的无载体隐写方法技术

技术编号:19215658 阅读:32 留言:0更新日期:2018-10-20 06:42
本发明专利技术公开了一种基于汉语拼音多重映射的文本无载体隐写方法,涉及信息隐藏技术领域中基于文本载体处理技术的隐写术,主要实现了一种新型的文本无载体隐写方案。本发明专利技术重在寻找文本隐性空间以及构建映射关系实现秘密消息的隐写,实现了将秘密消息映射到文本载体隐性拼音空间,拼音空间到文本载体音节声调表,再到文本载体的多重映射。无论是隐写过程还是提取过程,关键在于构建与解析汉字和拼音具有一一映射关系的汉字拼音共享字典、文本载体的汉字拼音空间、秘密消息的音节标识值序列和声调标识值序列、以及和这两个序列对应的密钥。本发明专利技术基于映射关系的构造不易被检测,而且实现难度小、容量相对较大。

【技术实现步骤摘要】
一种基于汉语拼音多重映射的无载体隐写方法
本专利技术涉及信息隐藏
,特别是一种基于汉语拼音多重映射的文本无载体隐写方法。
技术介绍
秘密通信、版权保护、数字取证等需求促进了信息隐藏技术的发展。文本仍是信息化时代信息交流的最主要载体形式。通过文本实现隐藏秘密消息进行通信是当前秘密通信的亟需方式和方法。隐写术的目的是构造一个安全、隐蔽的通信通道,隐藏秘密消息的存在。隐写术被广泛的应用于秘密通信领域,完善当前信息安全领域的通信安全问题。现有的隐写术方法根据载体类型的不同常分为以下五类:文本隐写术、图像隐写术、音频隐写术、视频隐写术、协议隐写术。根据是否修改文本可将文本隐写术分为载体文本隐写术和无载体文本隐写术。载体文本隐写术基于不可见字符、词汇、句式和文本格式等特征的修改进行隐写;无载体文本隐写术为基于搜索或生成等方法,既不对文本载体做任何不可见字符、字符特征、文本特征的修改操作,而且不对文本载体进行语言学的替换操作。通过原始文本与伪装文本的对比或特征分析,现有载体文本隐写方法很容易被检测发现,同时由于冗余度小而存在容量小、实现难度大等问题;另外,文本载体特征的有限性导致难以在原有方法的基础上进行容量的扩充。而当前的无载体文本隐写普遍存在隐写容量小的问题。
技术实现思路
为解决上述问题,本专利技术提供一种基于汉语拼音多重映射的无载体文本隐写方法,通过文本载体空间到文本载体拼音空间的映射完成发送方和接收方的秘密通信。本专利技术借助自然语言处理技术实现文本载体空间到文本载体拼音空间的映射,在选择载体时基于文本相似性选择和秘密消息相似度低的文本载体,有效抵抗现有的修改法检测、统计特征检测等。本专利技术解决技术问题所采用的技术方法是:一种基于汉语拼音多重映射的无载体隐写方法,发送方与接收方拥有共同的密钥、文本载体库和汉字拼音共享字典。该方法主要分为三个过程:建立汉字拼音共享字典、隐写过程、提取过程。一、建立汉字拼音共享字典,由发送方和接收方共享。为消除汉语拼音中同音字、多音字对本专利技术中隐写方法的影响,本方法把拼音分成音节和声调两部分,并将它们的组合与汉字实现一一映射;可以通过增加音节或声调扩展这种一一映射关系。以2000常用字为例,可与400个音节和5种声调的2000种组合方式形成一一映射关系;在需要建立4000常用字的汉字拼音共享字典时,可以通过增加5种声调或400个音节来实现。二、一种基于汉语拼音多重映射的无载体隐写方法的隐写过程。隐写过程分为三个步骤:构建文本载体和文本载体拼音空间的映射关系,选择文本载体;构建秘密消息的音节标识值序列和声调标识值序列;构建秘密消息的音节标识值与声调标识值序列的对应密钥。步骤一:构建文本载体和文本载体拼音空间的映射关系,选择文本载体1.基于汉字拼音共享字典将文本载体库中的所有文本处理成英式拼音文本,然后对每个英式拼音文本中的音节分别统计其使用频率,并按降序的方式排成音节使用频率表;若音节使用频率相同,按照音节在英式拼音文本中的首次出现顺序进行排序,得到各个文本的音节使用频率表,包含<序号、音节、频率>三列。2.对秘密消息进行拼音处理得到英式拼音,将秘密消息英式拼音中的音节和声调数值分别构成有序序列S1和S2,并记录秘密消息中的最大重复音节数G。S1=<Xi>(Xi为秘密消息中第i个汉字的音节)(1)S2=<Xj>(Xj为秘密消息中第j个汉字的声调)(2)3.计算音节哈希值。音节哈希值用来表示秘密消息的音节序列中的音节在某文本的音节使用频率表中是否存在,其定义如下:HK(t)=<H1,…,Hi,…,HLsecret>(i=1,2,…,Lsecret)(3)其中,Lsecret表示秘密消息长度,t是指文本载体库中某个文本,Hi是一个布尔类型的数值,由下面的函数定义:(4)4.计算音节文本距离(STD),其定义如下:STD(t)=HD(HK(t),<b1,b2,…,bLsecret>)bi=0,i=1,2,…,Lsecret(5)HD()函数代表汉明距离计算操作,<b1,b2,…,bLsecret>是一个全为0的序列。当STD(t)=Lsecret时,表示秘密消息的所有音节都出现在文本t中,文本t即可作为秘密消息的候选载体,将所有候选载体组成候选载体组。5.将候选组中的文本与秘密消息进行相似性度量,选择一个与秘密消息的相似性最低的文本作为载体。步骤二:构建秘密消息的音节标识值序列S3和声调标识值序列S41.基于音节使用频率表,增加音节标识值和声调标识值两列,构建音节声调表。(1)音节标识值列的值确定方式是:设音节使用频率表中序号为1的音节标识值为1,序号为n的行对应的音节标识值为1+(n-1)*k。这里,k需要满足以下两个条件:(I)k>G,以保证当秘密消息有重复音节时构造的音节标识值不重复;(II)k大于Lsecret的所有质因数。设Lsecret的最大质因数为Pmax,则综合上述两个条件,k为:k=min{p|p是一个质数且p>max{G,Pmax}}(6)(2)声调标识值列的值确定方式是:设音节使用频率表中序号为1的声调标识值为1,序号为n的行对应的声调标识值为1+(n-1)*d。这里,d为声调的种类数量,缺省使用五种声调,故d缺省取值为5。2.构建秘密消息音节标识值序列S3。依次在音节声调表中搜索秘密消息音节序列S1中音节所对应的音节标识值,并基于该音节在秘密消息中出现的次数构建秘密消息音节标识值序列S3。该序列的通项表达式为:S3中第i项音节标识值=S1中第i项音节在音节声调表对应的音节标识值+该音节在S1中重复出现的次序-1;(7)即完整的秘密消息音节标识值序列S3为:S3=<S3中第i项音节标识值>,i∈[1,Lsecret](8)3.构建秘密消息的声调标识值序列S4。秘密消息的声调标识值序列S4由秘密消息的声调值序列S2结合对应音节的声调标识值组成,该序列的通项表达式为:S4中第j项音节声调标识值=Xj+该音节在音节声调表中的音节声调标识值(9)S4=<S4中第j项音节声调标识值>,j∈[1,Lsecret](10)步骤三:构建秘密消息的音节标识值与声调标识值序列的对应密钥1.给定序列:SEQ=<1,2,…,N>,这里N为秘密消息的音节标识值和声调标识值中的最大值。2.从SEQ中取长度为Lsecret的子序列的排列总数为P(N,Lsecret),将这P(N,Lsecret)个序列映射到相应的种子数,其中必有两个子序列分别为秘密消息的音节标识值序列S3和声调标识值序列S4,记它们相对应的种子数x1和x2。3.以x1和x2作为密钥,接收方要顺利提取秘密消息还需要知道k的取值和秘密消息的长度Lsecret。记密钥x3为k与Lsecret的乘积。此时只需要将无任何修改的正常文本作为文本载体传输给接收方,接收方通过密钥x1、x2和x3可实现对秘密消息的提取。三、一种基于汉语拼音多重映射的无载体隐写方法的本文档来自技高网...

【技术保护点】
1.一种基于汉语拼音多重映射的无载体隐写方法,其特征在于,包括:步骤1、建立汉字拼音共享字典,把拼音分成音节和声调两部分,并将它们的组合与汉字实现一一映射;可以通过增加音节或声调扩展这种一一映射关系;步骤2、发送方进行的隐写过程;步骤3、接收方进行的提取过程;发送方和接收方拥有共同的密钥、文本载体库和所述的汉字拼音共享字典。

【技术特征摘要】
1.一种基于汉语拼音多重映射的无载体隐写方法,其特征在于,包括:步骤1、建立汉字拼音共享字典,把拼音分成音节和声调两部分,并将它们的组合与汉字实现一一映射;可以通过增加音节或声调扩展这种一一映射关系;步骤2、发送方进行的隐写过程;步骤3、接收方进行的提取过程;发送方和接收方拥有共同的密钥、文本载体库和所述的汉字拼音共享字典。2.根据权利要求1所述的基于汉语拼音多重映射的无载体隐写方法,其特征在于,所述的步骤2分为以下三个步骤:步骤(2-1)构建文本载体和文本载体拼音空间的映射关系,选择文本载体;步骤(2-2)构建秘密消息的音节标识值序列和声调标识值序列;步骤(2-3)构建秘密消息的音节标识值与声调标识值序列的对应密钥。3.根据权利要求2所述的基于汉语拼音多重映射的无载体隐写方法,其特征在于,所述的步骤(2-1)包括以下步骤:A.基于所述的汉字拼音共享字典将文本载体库中的所有文本处理成英式拼音文本,然后分别统计每个英式拼音文本中音节的使用频率,并按降序的方式排成音节使用频率表;若音节使用频率相同,按照音节在英式拼音文本中的首次出现顺序进行排序,得到各个文本的音节使用频率表,包含<序号、音节、频率>三列;B.对秘密消息进行拼音处理得到英式拼音,将秘密消息英式拼音中的音节和声调数值分别构成有序序列S1和S2,并记录秘密消息中的最大重复音节数G,即:S1=<Xi>(Xi为秘密消息中第i个汉字的音节)(1)S2=<Xj>(Xj为秘密消息中第j个汉字的声调)(2)C.计算音节哈希值:音节哈希值用来表示秘密消息的音节序列中的音节在某文本的音节使用频率表中是否存在,其定义如下:HK(t)=<H1,…,Hi,…,HLsecret>(i=1,2,…,Lsecret)(3)其中,Lsecret表示秘密消息长度,t是指文本载体库中某个文本,Hi是一个布尔类型的数值,由下面的函数定义:(4)D.计算音节文本距离(STD),其定义如下:STD(t)=HD(HK(t),<b1,b2,…,bLsecret>)bi=0,i=1,2,…,Lsecret(5)HD()函数代表汉明距离计算操作,<b1,b2,…,bLsecret>是一个全为0的序列;当STD(t)=Lsecret时,表示秘密消息的所有音节都出现在文本t中,文本t即可作为秘密消息的候选载体,将所有候选载体组成候选载体组;E.将候选载体组中的文本与秘密消息进行相似性度量,选择一个与秘密消息的相似性最低的文本作为载体。4.根据权利要求2所述的基于汉语拼音多重映射的无载体隐写方法,其特征在于,所述的步骤(2-2)包括:A.基于所述的音节使用频率表,增加音节标识值和声调标识值两列,构建音节声调表,具体方法如下:(1)音节标识值列的值确定方式是:设音节使用频率表中序号为1的音节标识值为1,序号为n的行对应的音节标识值为1+(n-1)*k;这里,k需要满足以下两个条件:(I)k>G,以保证当秘密消息有重复音节时构造的音节标识值不重复;(II)k大于Lsecret的所有质因数;设Lsecret的最大质因数为Pmax,则综合上述两个条件,k为:k=min{p|p是一个质数且p>max{G,Pmax}}(6)(2)声调标识值列的值确定方式是:设音节使用频率表中序号为1的声调标识值为1,序号为n的行对应的声调标识值为1+(n-1)*d;这里,d...

【专利技术属性】
技术研发人员:王开西孙志文
申请(专利权)人:青岛大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1