一种人工智能学习的模糊语音语义识别方法及系统技术方案

技术编号:22886075 阅读:136 留言:0更新日期:2019-12-21 08:03
本发明专利技术提供了一种人工智能学习的模糊语音语义识别方法及系统。本发明专利技术针对用户口述语音指令中存在的模糊语音,利用GAN网络架构重建为清晰的标准语音,进而基于标准语音实现语义信息的转化识别。并且,在对所述GAN网络的训练过程中,利用语音特征匹配将输入的模糊语音对应到更大范围的样本选集,以该样本选集实现对GAN网络的训练。

A fuzzy speech semantic recognition method and system based on Artificial Intelligence Learning

【技术实现步骤摘要】
一种人工智能学习的模糊语音语义识别方法及系统
本申请涉及人工智能控制领域,尤其涉及一种人工智能学习的模糊语音语义识别方法及系统。
技术介绍
随着语音识别与语义转换技术的成熟,人们利用语音命令控制服务设施越来越常见,在智慧建筑、智慧社区、智慧家庭中的应用越来越多。举例来说,人们可以口述语音命令来控制智慧建筑、智慧社区、智慧家庭的各种服务设施运行。例如,人们可以针对智慧建筑的电梯发出“请升到第15层”的语音命令,也可以在智慧社区的门禁系统旁边说出“请呼叫XXX房间”、“请开门,开门密码是XXXXXX”、“请锁门”等语音命令,亦或者面向智慧家庭的中控面板附近说出“请打开空调”、“请调亮吊灯灯光”等语音命令。服务设施采集语音命令信号,经过必要的增强处理之后,进行语音命令到语义信息的转换识别,再由自然语言字符形态的语义信息生成机器代码形态的控制指令,服务设施可以按照控制指令执行必要的工作。相比于对按钮、按键型控制面板进行手动操控来,语音命令方式能够给用户带来更方便的体验和更大的自由度,特别是在用户是没有双手或者失明的残疾人,或者用户双手都持有物品,或者是因环境阻碍、距离远等因素无法触碰到控制面板等情况下,能够增强智慧建筑、智慧社区、智慧家庭的便利化和无障碍化。然而,目前语音命令到语义信息的转换识别——也就是从声音信号到自然语言字符的识别过程中,还存在较大的误转换概率。其中,对于清晰的语音尚能够实现较好的识别,但是对于模糊语音来说实现正确的语义信息转换尤其具有难度。而在声音信号传输到被服务设施采集的过程中,由于声音自身削弱,周围环境噪声的干扰,包括用户自身不清晰发音、口音等因素影响,都会造成模糊语音的产生,直接导致语音命令无法被正确识别为语义信息,导致无法控制服务设施运行。现有技术中面向模糊语音的语义识别主要是采用对声音信号的增强等前处理,以及采用置信度评估的方式,无法有效解决通过模糊语音实现精确语义识别的问题。随着人工智能的发展,现有技术中发展出将SVM向量机、神经网络等识别模型应用于对语音的语义识别技术,具体来说是利用语音样本提取特征量训练识别模型,然后对识别模型输入待识别语音的特征量,获得语义信息。但是,如果将以上识别模型直接用于模糊语音的语义识别,则由于模糊语音的变化形态极为丰富,导致模糊语音特征量呈现非常丰富的多样性,因而模糊语音样本往往代表性不足,导致人工智能识别模型训练不充分以及训练后的识别模型对于其它模糊语音适用性不强的问题
技术实现思路
针对现有技术中的上述问题,本专利技术提供了一种人工智能学习的模糊语音语义识别方法及系统。本专利技术针对用户口述语音指令中存在的模糊语音,利用GAN网络架构重建为清晰的标准语音,进而基于标准语音实现语义信息的转化识别。并且,在对所述GAN网络的训练过程中,利用语音特征匹配将输入的模糊语音对应到更大范围的样本选集,以该样本选集实现对GAN网络的训练。本专利技术提供了一种人工智能学习的模糊语音语义识别方法,包括以下步骤:步骤1,采集用户输入的模糊语音信号,并且提取模糊语音信号的高维度特征量;步骤2,根据模糊语音信号的频谱包络特征量,确定与模糊语音信号特征匹配的样本选集;步骤3,构建用于将模糊语音重建为标准语音的GAN架构的重建模型,利用所述样本选集,训练所述重建模型;步骤4,构建将模糊语音基频转化为标准语音基频的转换器;步骤5,将用户输入的模糊语音信号的频谱包络特征量输入训练完毕的重建模型,获得重建模型的生成器输出的重建标准语音的频谱包络特征量,并且将模糊语音基频输入转换器,转化重建标准语音的基频;步骤6,根据重建标准语音的频谱包络特征量以及基频,合成重建标准语音;步骤7,利用重建标准语音进行语义信息的识别。优选的是,步骤2中建立若干个样本选集,每个语音样本包括模糊语音样本和标准语音样本,且模糊语音样本的特征量相似度在预设的相似度范围之内;基于步骤1提取的模糊语音信号的频谱包络特征量,与每个样本选集的选集代表性特征量进行匹配,从而选定与模糊语音信号的频谱包络特征量匹配的样本选集。进一步优选的是,步骤2中,所述样本选集具有n段语音样本,每个语音样本对应的模糊语音样本的频谱包络特征量为X1s,X2s...Xns,每个频谱包络特征量为d维度特征向量,组成样本选集的特征量矩阵XS={X1s,X2s...Xns};对于d维中的第r维度,计算其在整个特征量矩阵XS的均值,表示为并且选取特征量矩阵XS中nk个特征量组成的子矩阵,记为子矩阵k,表示为从而特征量矩阵XS中每nk个特征向量组成一个子矩阵,共计c个子矩阵,即k=1,2...c;子矩阵k在d维中的第r维度的均值表示为则计算c个子矩阵的类间距离:并且计算c个子矩阵每个子矩阵的类内距离:其中xks,r为XkS中每个特征向量在r维度上的取值;计算c个子矩阵每个子矩阵的类内类间比例:σ=Db/Dw进而确定具有最高的类内类间比例值的子矩阵为样本选集的选集代表性特征量。优选的是,步骤3中GAN架构的重建模型包括:生成器G以及鉴别器D;所述生成器根据输入该生成器的模糊语音的频谱包络特征量,重建标准语音的频谱包络特征量;所述鉴别器用于判断生成器重建的频谱包络特征量的真伪。优选的是,步骤3中生成器G的损失函数IG(G)表示为:其中表示生成器G的对抗损失,Lc(G)表示生成器G的循环一致损失,表示循环一致损失的正则化参数,Lid(G)表示生成器G的特征映射损失,表示特征映射损失的正则化参数。优选的是,步骤3中鉴别器D的损失函数表示为:其中D(xS)表示鉴别器D对输入的样本选集中标准语音样本的频谱包络特征量的判别值,表示对标准语音样本概率分布的期望;D(G(xt))表示鉴别器D对生成器G根据模糊语音特征xt生成的标准语音样本的频谱包络特征量的判别值,表示对模糊语音特征xt概率分布的期望。优选的是,步骤4中构建的基频转换函数为:其中μG和σG为生成器生成的标准语音在对数域的均值和方差,μt和σt为模糊语音在对数域的均值和方差,ft为模糊语音基频,fG为转化的标准语音基频。进而,本专利技术提供了一种人工智能学习的模糊语音语义识别系统,包括:模糊语音信号特征量提取模块,用于采集用户输入的模糊语音信号,并且提取模糊语音信号的高维度特征量;样本选集匹配模块,根据模糊语音信号的频谱包络特征量,确定与模糊语音信号特征匹配的样本选集;GAN重建模型构建及训练模块,构建用于将模糊语音重建为标准语音的GAN架构的重建模型,利用所述样本选集,训练所述重建模型;转换器构建模块,构建将模糊语音基频转化为标准语音基频的转换器;重建转换模块,将用户输入的模糊语音信号的频谱包络特征量输入训练完毕的重建模型,获得重建模型的生成器输出的重建标准语音的频谱包络特征量,并且将重建标准语音的频谱包络特征量输入转换器,转化重建本文档来自技高网
...

【技术保护点】
1.一种人工智能学习的模糊语音语义识别方法,包括以下步骤:/n步骤1,采集用户输入的模糊语音信号,并且提取模糊语音信号的高维度特征量;/n步骤2,根据模糊语音信号的频谱包络特征量,确定与模糊语音信号特征匹配的样本选集;/n步骤3,构建用于将模糊语音重建为标准语音的GAN架构的重建模型,利用所述样本选集,训练所述重建模型;/n步骤4,构建将模糊语音基频转化为标准语音基频的转换器;/n步骤5,将用户输入的模糊语音信号的频谱包络特征量输入训练完毕的重建模型,获得重建模型的生成器输出的重建标准语音的频谱包络特征量,并且将模糊语音基频输入转换器,转化重建标准语音的基频;/n步骤6,根据重建标准语音的频谱包络特征量以及基频,合成重建标准语音;/n步骤7,利用重建标准语音进行语义信息的识别。/n

【技术特征摘要】
1.一种人工智能学习的模糊语音语义识别方法,包括以下步骤:
步骤1,采集用户输入的模糊语音信号,并且提取模糊语音信号的高维度特征量;
步骤2,根据模糊语音信号的频谱包络特征量,确定与模糊语音信号特征匹配的样本选集;
步骤3,构建用于将模糊语音重建为标准语音的GAN架构的重建模型,利用所述样本选集,训练所述重建模型;
步骤4,构建将模糊语音基频转化为标准语音基频的转换器;
步骤5,将用户输入的模糊语音信号的频谱包络特征量输入训练完毕的重建模型,获得重建模型的生成器输出的重建标准语音的频谱包络特征量,并且将模糊语音基频输入转换器,转化重建标准语音的基频;
步骤6,根据重建标准语音的频谱包络特征量以及基频,合成重建标准语音;
步骤7,利用重建标准语音进行语义信息的识别。


2.根据权利要求1所述的模糊语音语义识别方法,其特征在于,步骤2中建立若干个样本选集,每个语音样本包括模糊语音样本和标准语音样本,且模糊语音样本的特征量相似度在预设的相似度范围之内;基于步骤1提取的模糊语音信号的频谱包络特征量,与每个样本选集的选集代表性特征量进行匹配,从而选定与模糊语音信号的频谱包络特征量匹配的样本选集。


3.根据权利要求2所述的模糊语音语义识别方法,其特征在于,步骤2中,所述样本选集具有n段语音样本,每个语音样本对应的模糊语音样本的频谱包络特征量为X1s,X2s…Xns,每个频谱包络特征量为d维度特征向量,组成样本选集的特征量矩阵XS={X1s,X2s…Xns};对于d维中的第r维度,计算其在整个特征量矩阵XS的均值,表示为并且选取特征量矩阵XS中nk个特征量组成的子矩阵,记为子矩阵k,表示为从而特征量矩阵XS中每nk个特征向量组成一个子矩阵,共计c个子矩阵,即k=1,2...c;子矩阵k在d维中的第r维度的均值表示为则计算c个子矩阵的类间距离:



并且计算c个子矩阵每个子矩阵的类内距离:



其中xks,r为XkS中每个特征向量在r维度上的取值;
计算c个子矩阵每个子矩阵的类内类间比例:
σ=Db/Dw
进而确定具有最高的类内类间比例值的子矩阵为样本选集的选集代表性特征量。


4.根据权利要求1所述的模糊语音语义识别方法,其特征在于,步骤3中GAN架构的重建模型包括:生成器G以及鉴别器D;所述生成器根据输入该生成器的模糊语音的频谱包络特征量,重建标准语音的频谱包络特征量;所述鉴别器用于判断生成器重建的频谱包络特征量的真伪。


5.根据权利要求4所述的模糊语音语义识别方法,其特征在于,步骤3中生成器G的损失函数IG(G)表示为:



其中表示生成器G的对抗损失,Lc(G)表示生成器G的循环一致损失,表示循环一致损失的正则化参数,Lid(G)表示生成器G的特征映射损失,表示特征映射损失的正则化参数。


6.根据权利要求4所述的模糊语音语义识别方法,其特征在于,步骤3中鉴别器D的损失函数表示为:

...

【专利技术属性】
技术研发人员:孙斌李东晓
申请(专利权)人:特斯联北京科技有限公司光控特斯联上海信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1