一种用于保护汉语语音私密度的掩蔽信号的生成方法技术

技术编号：11471659 阅读：100 留言：0更新日期：2015-05-20 01:23

本发明专利技术的用于保护汉语语音私密度的掩蔽信号的生成方包括a).统计语句概率表；b).统计句段概率表；c).统计词组概率表；d).统计汉字概率表；e).统计音节概率表；f).按照确定自然段的语句数、语句中的句段数、句段中的词组数、词组中的汉字数、汉字的音节生成文本信息；g).语音合成。本发明专利技术的掩蔽信号的生成方法，充分考虑了会议室声音掩蔽的需求及汉语语音的特点，摒弃了采用稳态噪声等掩蔽信号的传统方式，基于汉语语言中字、词、句的各项统计特性，利用人类发声语音库，生成一种无实际意义的、与正常说话语音极其相似的掩蔽信号。这种掩蔽信号相比传统的掩蔽噪声，大大减弱了听觉上的各种负面影响，提高了声音掩蔽效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于保护汉语语音私密度的掩蔽信号的生成方法
本专利技术涉及一种用于保护汉语语音私密度的掩蔽信号的生成方法，更具体的说，尤其涉及一种可形成无实际意义的、与正常说话语音极其相似的、减小了听觉上负面影响的用于保护汉语语音私密度的掩蔽信号的生成方法。
技术介绍
会议室保密涉及到国家、商业、科技等机密信息的保护，属于信息安全领域，从国家安全到商业应用都有迫切的需求，商业窃听每年给国家造成的经济损失可达数百亿元。作为保密会议室最基本的信息形式，声音是需要保护的重点。保密会议室中声音信息的泄露主要有两种方式：主动泄露和无意识泄露。主动泄露指的是通过在会议室内部安装窃听设备所造成的泄露，而无意识泄露指的是会议召开期间，声音通过空气传声、固体传声等方式泄露，而被非授权人员听到。具体而言，声音信号无意识泄露的通道主要包括：门、窗、墙体以及各种管道等。本文所提出的方法主要针对声音信号的无意识泄露。目前，针对声音信号的无意识泄露，大都采用声掩蔽技术进行防护。具体而言，就是在可能存在声音泄露的位置、途径上布设干扰源，产生干扰信号，从而掩蔽有用的语音信号，从而达到声音泄露防护的作用。上述干扰信号被称为掩蔽信号。掩蔽信号的选择要考虑两个方面的因素，一是掩蔽效果，二是掩蔽信号对人的心理和生理影响。目前常见的掩蔽信号主要有白噪声、粉噪声、暖通空调噪声等。白噪声和粉噪声，通常具有比较稳定的统计特性，但掩蔽效率较低。而暖通空调噪声信号本身具有不连续、不稳定、分布不均或是声音级过高，有时候反而成为噪声源，对人的心理和生理影响比较大，负面效应明显。
技术实现思路
本专利技术的主要目的是利用汉语发音...
一种用于保护汉语语音私密度的掩蔽信号的生成方法

【技术保护点】
一种用于保护汉语语音私密度的掩蔽信号的生成方法，其特征在于，通过以下步骤来实现：a).统计语句概率表，以具有代表性的汉语语料库为统计样本，对语料库中每个段落所包含的语句数进行统计，获得组成段落的语句数的概率表，简称语句概率表，其中表示语句数目为的段落占所有段落的百分比，1≤≤；b).统计句段概率表，对语料库中所有语句所包含的句段数进行统计，获得语句的句段数的概率表，简称句段概率表，其中表示句段数目为的语句占所有语句的百分比，1≤≤；c).统计词组概率表，对语料库中所有句段所包含的词组数进行统计，获得句段的词组数的概率表，简称词组概率表，其中表示词组数目为的句段占所有句段的百分比，1≤≤；d).统计汉字概率表，对语料库中所有词组所包含的汉字数进行统计，获得词组的汉字数的概率表，简称汉字概率表，其中表示汉字数目为的词组占所有词组的百分比，1≤≤；e).统计音节概率表，首先按照字母顺序对音节进行排序，记为，然后根据各音节在日常用语中出现的概率，获得音节概率表，简称音节概率表，其中表示音节在日常用语中出现的频率，1≤≤；f).生成文本信息，按照如下步骤生成语音对应的文本信息：f‑1).确定自然...

【技术特征摘要】
1.一种用于保护汉语语音私密度的掩蔽信号的生成方法，其特征在于，通过以下步骤来实现：a).统计语句概率表，以具有代表性的汉语语料库为统计样本，对语料库中每个段落所包含的语句数进行统计，获得组成段落的语句数的概率表，简称语句概率表，其中表示语句数目为的段落占所有段落的百分比，1≤≤；b).统计句段概率表，对语料库中所有语句所包含的句段数进行统计，获得语句的句段数的概率表，简称句段概率表，其中表示句段数目为的语句占所有语句的百分比，1≤≤；c).统计词组概率表，对语料库中所有句段所包含的词组数进行统计，获得句段的词组数的概率表，简称词组概率表，其中表示词组数目为的句段占所有句段的百分比，1≤≤；d).统计汉字概率表，对语料库中所有词组所包含的汉字数进行统计，获得词组的汉字数的概率表，简称汉字概率表，其中表示汉字数目为的词组占所有词组的百分比，1≤≤；e).统计音节概率表，首先按照字母顺序对音节进行排序，记为，然后根据各音节在日常用语中出现的概率，获得音节概率表，简称音节概率表，其中表示音节在日常用语中出现的频率，1≤≤；f).生成文本信息，按照如下步骤生成语音对应的文本信息：f-1).确定自然段的语句数，在区间范围内产生随机数，并判断随机数所属区间；如果在区间内，则得出自然段中所包含的语句数为，其中，1≤≤，；通过步骤f-2)确定出自然段中的每个语句；f-2).确定语句中的句段数，在区间范围内产生随机数，并判断随机数所属区间；如果在区间内，则得出语句中所包含的句段数为，其中，1≤≤，；通过步骤f-3)确定出每个语句中的句段；f-3).确定句段中的词组数，在区间范围内产生随机数，并判断随机数所属区间；如果在区间内，...

【专利技术属性】
技术研发人员：李晔，马晓凤，郝秋赟，樊燕红，姜竞赛，张鹏，
申请(专利权)人：山东省计算中心国家超级计算济南中心，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人