一种用于保护汉语语音私密度的掩蔽信号的生成方法技术

技术编号:11471659 阅读:100 留言:0更新日期:2015-05-20 01:23
本发明专利技术的用于保护汉语语音私密度的掩蔽信号的生成方包括a).统计语句概率表;b).统计句段概率表;c).统计词组概率表;d).统计汉字概率表;e).统计音节概率表;f).按照确定自然段的语句数、语句中的句段数、句段中的词组数、词组中的汉字数、汉字的音节生成文本信息;g).语音合成。本发明专利技术的掩蔽信号的生成方法,充分考虑了会议室声音掩蔽的需求及汉语语音的特点,摒弃了采用稳态噪声等掩蔽信号的传统方式,基于汉语语言中字、词、句的各项统计特性,利用人类发声语音库,生成一种无实际意义的、与正常说话语音极其相似的掩蔽信号。这种掩蔽信号相比传统的掩蔽噪声,大大减弱了听觉上的各种负面影响,提高了声音掩蔽效果。

【技术实现步骤摘要】
一种用于保护汉语语音私密度的掩蔽信号的生成方法
本专利技术涉及一种用于保护汉语语音私密度的掩蔽信号的生成方法,更具体的说,尤其涉及一种可形成无实际意义的、与正常说话语音极其相似的、减小了听觉上负面影响的用于保护汉语语音私密度的掩蔽信号的生成方法。
技术介绍
会议室保密涉及到国家、商业、科技等机密信息的保护,属于信息安全领域,从国家安全到商业应用都有迫切的需求,商业窃听每年给国家造成的经济损失可达数百亿元。作为保密会议室最基本的信息形式,声音是需要保护的重点。保密会议室中声音信息的泄露主要有两种方式:主动泄露和无意识泄露。主动泄露指的是通过在会议室内部安装窃听设备所造成的泄露,而无意识泄露指的是会议召开期间,声音通过空气传声、固体传声等方式泄露,而被非授权人员听到。具体而言,声音信号无意识泄露的通道主要包括:门、窗、墙体以及各种管道等。本文所提出的方法主要针对声音信号的无意识泄露。目前,针对声音信号的无意识泄露,大都采用声掩蔽技术进行防护。具体而言,就是在可能存在声音泄露的位置、途径上布设干扰源,产生干扰信号,从而掩蔽有用的语音信号,从而达到声音泄露防护的作用。上述干扰信号被称为掩蔽信号。掩蔽信号的选择要考虑两个方面的因素,一是掩蔽效果,二是掩蔽信号对人的心理和生理影响。目前常见的掩蔽信号主要有白噪声、粉噪声、暖通空调噪声等。白噪声和粉噪声,通常具有比较稳定的统计特性,但掩蔽效率较低。而暖通空调噪声信号本身具有不连续、不稳定、分布不均或是声音级过高,有时候反而成为噪声源,对人的心理和生理影响比较大,负面效应明显。
技术实现思路
本专利技术的主要目的是利用汉语发音的特点,包括字、词、句的各项统计特性,合成一种新的掩蔽信号,由于其与正常发音的统计特性类似,因而不容易被破解,掩蔽效果好,同时会降低掩蔽信号对人心理和生理的影响,兼具一定的迷惑性。本专利技术的用于保护汉语语音私密度的掩蔽信号的生成方法,其特别之处在于,通过以下步骤来实现:a).统计语句概率表,以具有代表性的汉语语料库为统计样本,对语料库中每个段落所包含的语句数进行统计,获得组成段落的语句数的概率表,简称语句概率表,其中表示语句数目为的段落占所有段落的百分比,1≤≤;b).统计句段概率表,对语料库中所有语句所包含的句段数进行统计,获得语句的句段数的概率表,简称句段概率表,其中表示句段数目为的语句占所有语句的百分比,1≤≤;c).统计词组概率表,对语料库中所有句段所包含的词组数进行统计,获得句段的词组数的概率表,简称词组概率表,其中表示词组数目为的句段占所有句段的百分比,1≤≤;d).统计汉字概率表,对语料库中所有词组所包含的汉字数进行统计,获得词组的汉字数的概率表,简称汉字概率表,其中表示汉字数目为的词组占所有词组的百分比,1≤≤;e).统计音节概率表,首先按照字母顺序对音节进行排序,记为,然后根据各音节在日常用语中出现的概率,获得音节概率表,简称音节概率表,其中表示音节在日常用语中出现的频率,1≤≤;f).生成文本信息,按照如下步骤生成语音对应的文本信息:f-1).确定自然段的语句数,在区间范围内产生随机数,并判断随机数所属区间;如果在区间内,则得出自然段中所包含的语句数为,其中,1≤≤,;通过步骤f-2)确定出自然段中的每个语句;例如,若随机数,则该自然段包含1个语句,若,则该自然段包含2个语句,依此类推;f-2).确定语句中的句段数,在区间范围内产生随机数,并判断随机数所属区间;如果在区间内,则得出语句中所包含的句段数为,其中,1≤≤,;通过步骤f-3)确定出每个语句中的句段;例如,若随机数,则该语句包含1个句段,若,则该语句包含2个句段,依此类推;f-3).确定句段中的词组数,在区间范围内产生随机数,并判断随机数所属区间;如果在区间内,则得出句段中所包含的词组数为,其中,1≤≤,;通过步骤f-4)确定每个句段中的词组;例如,若随机数,则该句段包含1个词组,若,则该句段包含2个词组,依此类推;f-4).确定词组中的汉字数,在区间范围内产生随机数,并判断随机数所属区间;如果在区间内,则得出词组中所包含的汉字数为,汉字数即音节数,每个汉字对应一个音节,其中,1≤≤,;通过步骤f-5)确定每个汉字的音节;例如,若随机数,则该词组包含1个汉字,若,则该词组包含2个汉字,依此类推;f-5).确定音节,在区间范围内产生随机数,并判断随机数所属区间;如果在区间内,则得出汉字所对应的音节为,其中,1≤≤,;直至词组中所有汉字的音节确定完毕;在该步骤中,可以根据词组中所含的汉字数,利用种子生成与汉字数相同数目的随机数,若随机数,则选取音节;若,则选取音节,依此类推;按照步骤f-1)至f-5)生成自然段的文本信息,直至所生成的自然段数目满足要求;g).语音合成,利用与每个音节的发音相对应的语音库,将步骤f)中获取的自然段的文本信息中的音节,与语音库中的发音一一对应形成相应的语音数据,通过在保密会议中的声音泄漏位置播放该语音数据,即可形成与正常发音的统计特性类似、掩蔽性好、对会议人员影响小的语音掩蔽信号。语音合成是基于语音库,将上一步骤所产生的随机文本合成为掩蔽信号输出。语音库在专业的录音室内录制,涵盖了汉语语音所有的常用音节。语音库中各音节的命名与生成随机文本的音节名字一一对应。例如语音库中音调为一声,读音为“啊”的音节命名为“a1.wav”,读音为二声的“啊”,相应地命名为“a2.wav”。语音合成时,读取上一步骤所产生的随机文本“text.txt”,并与语音库进行匹配,例如,从随机文本中读取到“bai1”这个音节,则将其对应到语音库的“bai1.wav”,依次类推,将所有音节与语音库中发音一一对应,最终合成掩蔽信号输出。为了使合成的掩蔽信号听起来更流畅自然,在各自然段之间、各语句之间及各句段之间加入静音段。句末符号规定为句号、问号、感叹号,句段末的符号规定为冒号、逗号、分号,段末的符号规定为回车、换行符号。将提前录制好的静音段存入语音库中,静音段的命名必须有别于语音库中的所有音节,例如将静音段命名为jyin.wav.。读取随机文本时,若遇到以上规定的末端符号,直接读取语音库中对应的静音段,以达到语音停顿的目的。本专利技术的用于保护汉语语音私密度的掩蔽信号的生成方法,步骤f)在语音文本信息的生成过程中,语句末的符号为句号、问号或感叹号,句段末的符号为冒号、逗号或分号,段末的符号为回车或换行符;在文本信息生成发音数据的过程中,自然段之间、各语句之间以及各句段之间均加入静音段。本专利技术的用于保护汉语语音私密度的掩蔽信号的生成方法,步骤a)、b)、c)、d)中语句概率、句段概率、词组概率、汉字概率均精确至0.01,步骤e)中的音节概率精确至0.0001。本专利技术的用于保护汉语语音私密度的掩蔽信号的生成方法,步骤a)中所述的语料库为国家语委立项建设的现代汉语通用平衡语料库。本专利技术的有益效果是:本专利技术的掩蔽信号的生成方法,充分考虑了会议室声音掩蔽的需求及汉语语音的特点,摒弃了采用稳态噪声等掩蔽信号的传统方式,基于汉语语言中字、词、句的各项统计特性,利用人类发声语音库,生成一种无实际意义的、与正常说话语音极其相似的掩蔽信号。这种掩蔽信号相比传统的掩蔽噪声,大大减弱了听觉上的各种负面本文档来自技高网...
一种用于保护汉语语音私密度的掩蔽信号的生成方法

【技术保护点】
一种用于保护汉语语音私密度的掩蔽信号的生成方法,其特征在于,通过以下步骤来实现:a).统计语句概率表,以具有代表性的汉语语料库为统计样本,对语料库中每个段落所包含的语句数进行统计,获得组成段落的语句数的概率表,简称语句概率表,其中表示语句数目为的段落占所有段落的百分比,1≤≤;b).统计句段概率表,对语料库中所有语句所包含的句段数进行统计,获得语句的句段数的概率表,简称句段概率表,其中表示句段数目为的语句占所有语句的百分比,1≤≤;c).统计词组概率表,对语料库中所有句段所包含的词组数进行统计,获得句段的词组数的概率表,简称词组概率表,其中表示词组数目为的句段占所有句段的百分比,1≤≤;d).统计汉字概率表,对语料库中所有词组所包含的汉字数进行统计,获得词组的汉字数的概率表,简称汉字概率表,其中表示汉字数目为的词组占所有词组的百分比,1≤≤;e).统计音节概率表,首先按照字母顺序对音节进行排序,记为,然后根据各音节在日常用语中出现的概率,获得音节概率表,简称音节概率表,其中表示音节在日常用语中出现的频率,1≤≤;f).生成文本信息,按照如下步骤生成语音对应的文本信息:f‑1).确定自然段的语句数,在区间范围内产生随机数,并判断随机数所属区间;如果在区间内,则得出自然段中所包含的语句数为,其中,1≤≤,;通过步骤f‑2)确定出自然段中的每个语句;f‑2).确定语句中的句段数,在区间范围内产生随机数,并判断随机数所属区间;如果在区间内,则得出语句中所包含的句段数为,其中,1≤≤,;通过步骤f‑3)确定出每个语句中的句段;f‑3).确定句段中的词组数,在区间范围内产生随机数,并判断随机数所属区间;如果在区间内,则得出句段中所包含的词组数为,其中,1≤≤,;通过步骤f‑4)确定每个句段中的词组;f‑4).确定词组中的汉字数,在区间范围内产生随机数,并判断随机数所属区间;如果在区间内,则得出词组中所包含的汉字数为,汉字数即音节数,每个汉字对应一个音节,其中,1≤≤,;通过步骤f‑5)确定每个汉字的音节;f‑5).确定音节,在区间范围内产生随机数,并判断随机数所属区间;如果在区间内,则得出汉字的音节为,其中,1≤≤,;直至词组中所有汉字的音节确定完毕;按照步骤f‑1)至f‑5)生成自然段的文本信息,直至所生成的自然段数目满足要求;g).语音合成,利用与每个音节的发音相对应的语音库,将步骤f)中获取的自然段的文本信息中的音节,与语音库中的发音一一对应形成相应的语音数据,通过在保密会议中的声音泄漏位置播放该语音数据,即可形成与正常发音的统计特性类似、掩蔽性好、对会议人员影响小的语音掩蔽信号。...

【技术特征摘要】
1.一种用于保护汉语语音私密度的掩蔽信号的生成方法,其特征在于,通过以下步骤来实现:a).统计语句概率表,以具有代表性的汉语语料库为统计样本,对语料库中每个段落所包含的语句数进行统计,获得组成段落的语句数的概率表,简称语句概率表,其中表示语句数目为的段落占所有段落的百分比,1≤≤;b).统计句段概率表,对语料库中所有语句所包含的句段数进行统计,获得语句的句段数的概率表,简称句段概率表,其中表示句段数目为的语句占所有语句的百分比,1≤≤;c).统计词组概率表,对语料库中所有句段所包含的词组数进行统计,获得句段的词组数的概率表,简称词组概率表,其中表示词组数目为的句段占所有句段的百分比,1≤≤;d).统计汉字概率表,对语料库中所有词组所包含的汉字数进行统计,获得词组的汉字数的概率表,简称汉字概率表,其中表示汉字数目为的词组占所有词组的百分比,1≤≤;e).统计音节概率表,首先按照字母顺序对音节进行排序,记为,然后根据各音节在日常用语中出现的概率,获得音节概率表,简称音节概率表,其中表示音节在日常用语中出现的频率,1≤≤;f).生成文本信息,按照如下步骤生成语音对应的文本信息:f-1).确定自然段的语句数,在区间范围内产生随机数,并判断随机数所属区间;如果在区间内,则得出自然段中所包含的语句数为,其中,1≤≤,;通过步骤f-2)确定出自然段中的每个语句;f-2).确定语句中的句段数,在区间范围内产生随机数,并判断随机数所属区间;如果在区间内,则得出语句中所包含的句段数为,其中,1≤≤,;通过步骤f-3)确定出每个语句中的句段;f-3).确定句段中的词组数,在区间范围内产生随机数,并判断随机数所属区间;如果在区间内,...

【专利技术属性】
技术研发人员:李晔马晓凤郝秋赟樊燕红姜竞赛张鹏
申请(专利权)人:山东省计算中心国家超级计算济南中心
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1