一种基于汉语拼音多重映射的无载体隐写方法技术

技术编号：19215658 阅读：32 留言：0更新日期：2018-10-20 06:42

本发明专利技术公开了一种基于汉语拼音多重映射的文本无载体隐写方法，涉及信息隐藏技术领域中基于文本载体处理技术的隐写术，主要实现了一种新型的文本无载体隐写方案。本发明专利技术重在寻找文本隐性空间以及构建映射关系实现秘密消息的隐写，实现了将秘密消息映射到文本载体隐性拼音空间，拼音空间到文本载体音节声调表，再到文本载体的多重映射。无论是隐写过程还是提取过程，关键在于构建与解析汉字和拼音具有一一映射关系的汉字拼音共享字典、文本载体的汉字拼音空间、秘密消息的音节标识值序列和声调标识值序列、以及和这两个序列对应的密钥。本发明专利技术基于映射关系的构造不易被检测，而且实现难度小、容量相对较大。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于汉语拼音多重映射的无载体隐写方法
本专利技术涉及信息隐藏
，特别是一种基于汉语拼音多重映射的文本无载体隐写方法。
技术介绍
秘密通信、版权保护、数字取证等需求促进了信息隐藏技术的发展。文本仍是信息化时代信息交流的最主要载体形式。通过文本实现隐藏秘密消息进行通信是当前秘密通信的亟需方式和方法。隐写术的目的是构造一个安全、隐蔽的通信通道，隐藏秘密消息的存在。隐写术被广泛的应用于秘密通信领域，完善当前信息安全领域的通信安全问题。现有的隐写术方法根据载体类型的不同常分为以下五类：文本隐写术、图像隐写术、音频隐写术、视频隐写术、协议隐写术。根据是否修改文本可将文本隐写术分为载体文本隐写术和无载体文本隐写术。载体文本隐写术基于不可见字符、词汇、句式和文本格式等特征的修改进行隐写；无载体文本隐写术为基于搜索或生成等方法，既不对文本载体做任何不可见字符、字符特征、文本特征的修改操作，而且不对文本载体进行语言学的替换操作。通过原始文本与伪装文本的对比或特征分析，现有载体文本隐写方法很容易被检测发现，同时由于冗余度小而存在容量小、实现难度大等问题；另外，文本载体特征的有限性导致难以在原有方法的基础上进行容量的扩充。而当前的无载体文本隐写普遍存在隐写容量小的问题。
技术实现思路
为解决上述问题，本专利技术提供一种基于汉语拼音多重映射的无载体文本隐写方法，通过文本载体空间到文本载体拼音空间的映射完成发送方和接收方的秘密通信。本专利技术借助自然语言处理技术实现文本载体空间到文本载体拼音空间的映射，在选择载体时基于文本相似性选择和秘密消息相似度低的文本载体，有效抵抗现有的修...

【技术保护点】
1.一种基于汉语拼音多重映射的无载体隐写方法，其特征在于，包括：步骤1、建立汉字拼音共享字典，把拼音分成音节和声调两部分，并将它们的组合与汉字实现一一映射；可以通过增加音节或声调扩展这种一一映射关系；步骤2、发送方进行的隐写过程；步骤3、接收方进行的提取过程；发送方和接收方拥有共同的密钥、文本载体库和所述的汉字拼音共享字典。

【技术特征摘要】
1.一种基于汉语拼音多重映射的无载体隐写方法，其特征在于，包括：步骤1、建立汉字拼音共享字典，把拼音分成音节和声调两部分，并将它们的组合与汉字实现一一映射；可以通过增加音节或声调扩展这种一一映射关系；步骤2、发送方进行的隐写过程；步骤3、接收方进行的提取过程；发送方和接收方拥有共同的密钥、文本载体库和所述的汉字拼音共享字典。2.根据权利要求1所述的基于汉语拼音多重映射的无载体隐写方法，其特征在于，所述的步骤2分为以下三个步骤：步骤（2-1）构建文本载体和文本载体拼音空间的映射关系，选择文本载体；步骤（2-2）构建秘密消息的音节标识值序列和声调标识值序列；步骤（2-3）构建秘密消息的音节标识值与声调标识值序列的对应密钥。3.根据权利要求2所述的基于汉语拼音多重映射的无载体隐写方法，其特征在于，所述的步骤（2-1）包括以下步骤：A.基于所述的汉字拼音共享字典将文本载体库中的所有文本处理成英式拼音文本，然后分别统计每个英式拼音文本中音节的使用频率，并按降序的方式排成音节使用频率表；若音节使用频率相同，按照音节在英式拼音文本中的首次出现顺序进行排序，得到各个文本的音节使用频率表，包含<序号、音节、频率>三列；B.对秘密消息进行拼音处理得到英式拼音，将秘密消息英式拼音中的音节和声调数值分别构成有序序列S1和S2，并记录秘密消息中的最大重复音节数G，即：S1=<Xi>(Xi为秘密消息中第i个汉字的音节)(1)S2=<Xj>(Xj为秘密消息中第j个汉字的声调)(2)C.计算音节哈希值：音节哈希值用来表示秘密消息的音节序列中的音节在某文本的音节使用频率表中是否存在，其定义如下：HK(t)=<H1,…,Hi,…,HLsecret>(i=1,2,…,Lsecret)(3)其中，Lsecret表示秘密消息长度，t是指文本载体库中某个文本，Hi是一个布尔类型的数值，由下面的函数定义：(4)D.计算音节文本距离(STD)，其定义如下：STD(t)=HD（HK(t),<b1,b2,…,bLsecret>）bi=0,i=1,2,…,Lsecret(5)HD()函数代表汉明距离计算操作，<b1，b2，…，bLsecret>是一个全为0的序列；当STD(t)=Lsecret时，表示秘密消息的所有音节都出现在文本t中，文本t即可作为秘密消息的候选载体，将所有候选载体组成候选载体组；E.将候选载体组中的文本与秘密消息进行相似性度量，选择一个与秘密消息的相似性最低的文本作为载体。4.根据权利要求2所述的基于汉语拼音多重映射的无载体隐写方法，其特征在于，所述的步骤（2-2）包括：A.基于所述的音节使用频率表，增加音节标识值和声调标识值两列，构建音节声调表，具体方法如下：（1）音节标识值列的值确定方式是：设音节使用频率表中序号为1的音节标识值为1，序号为n的行对应的音节标识值为1+(n-1)*k；这里，k需要满足以下两个条件：（I）k>G，以保证当秘密消息有重复音节时构造的音节标识值不重复；（II）k大于Lsecret的所有质因数；设Lsecret的最大质因数为Pmax，则综合上述两个条件，k为：k=min{p|p是一个质数且p>max{G，Pmax}}（6）（2）声调标识值列的值确定方式是：设音节使用频率表中序号为1的声调标识值为1，序号为n的行对应的声调标识值为1+(n-1)*d；这里，d...

【专利技术属性】
技术研发人员：王开西，孙志文，
申请(专利权)人：青岛大学，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人