一种人工智能学习的模糊语音语义识别方法及系统技术方案

技术编号：22886075 阅读：136 留言：0更新日期：2019-12-21 08:03

本发明专利技术提供了一种人工智能学习的模糊语音语义识别方法及系统。本发明专利技术针对用户口述语音指令中存在的模糊语音，利用GAN网络架构重建为清晰的标准语音，进而基于标准语音实现语义信息的转化识别。并且，在对所述GAN网络的训练过程中，利用语音特征匹配将输入的模糊语音对应到更大范围的样本选集，以该样本选集实现对GAN网络的训练。

A fuzzy speech semantic recognition method and system based on Artificial Intelligence Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种人工智能学习的模糊语音语义识别方法及系统
本申请涉及人工智能控制领域，尤其涉及一种人工智能学习的模糊语音语义识别方法及系统。
技术介绍
随着语音识别与语义转换技术的成熟，人们利用语音命令控制服务设施越来越常见，在智慧建筑、智慧社区、智慧家庭中的应用越来越多。举例来说，人们可以口述语音命令来控制智慧建筑、智慧社区、智慧家庭的各种服务设施运行。例如，人们可以针对智慧建筑的电梯发出“请升到第15层”的语音命令，也可以在智慧社区的门禁系统旁边说出“请呼叫XXX房间”、“请开门，开门密码是XXXXXX”、“请锁门”等语音命令，亦或者面向智慧家庭的中控面板附近说出“请打开空调”、“请调亮吊灯灯光”等语音命令。服务设施采集语音命令信号，经过必要的增强处理之后，进行语音命令到语义信息的转换识别，再由自然语言字符形态的语义信息生成机器代码形态的控制指令，服务设施可以按照控制指令执行必要的工作。相比于对按钮、按键型控制面板进行手动操控来，语音命令方式能够给用户带来更方便的体验和更大的自由度，特别是在用户是没有双手或者失明的残疾人，或者用户双手都持有物品，或者是因环境阻碍、距离远等因素无法触碰到控制面板等情况下，能够增强智慧建筑、智慧社区、智慧家庭的便利化和无障碍化。然而，目前语音命令到语义信息的转换识别——也就是从声音信号到自然语言字符的识别过程中，还存在较大的误转换概率。其中，对于清晰的语音尚能够实现较好的识别，但是对于模糊语音来说实现正确的语义信息转换尤其具有难度。而在声音信号传输到被服务设施采集的过程中，由于声...

【技术保护点】
1.一种人工智能学习的模糊语音语义识别方法，包括以下步骤：/n步骤1，采集用户输入的模糊语音信号，并且提取模糊语音信号的高维度特征量；/n步骤2，根据模糊语音信号的频谱包络特征量，确定与模糊语音信号特征匹配的样本选集；/n步骤3，构建用于将模糊语音重建为标准语音的GAN架构的重建模型，利用所述样本选集，训练所述重建模型；/n步骤4，构建将模糊语音基频转化为标准语音基频的转换器；/n步骤5，将用户输入的模糊语音信号的频谱包络特征量输入训练完毕的重建模型，获得重建模型的生成器输出的重建标准语音的频谱包络特征量，并且将模糊语音基频输入转换器，转化重建标准语音的基频；/n步骤6，根据重建标准语音的频谱包络特征量以及基频，合成重建标准语音；/n步骤7，利用重建标准语音进行语义信息的识别。/n

【技术特征摘要】
1.一种人工智能学习的模糊语音语义识别方法，包括以下步骤：
步骤1，采集用户输入的模糊语音信号，并且提取模糊语音信号的高维度特征量；
步骤2，根据模糊语音信号的频谱包络特征量，确定与模糊语音信号特征匹配的样本选集；
步骤3，构建用于将模糊语音重建为标准语音的GAN架构的重建模型，利用所述样本选集，训练所述重建模型；
步骤4，构建将模糊语音基频转化为标准语音基频的转换器；
步骤5，将用户输入的模糊语音信号的频谱包络特征量输入训练完毕的重建模型，获得重建模型的生成器输出的重建标准语音的频谱包络特征量，并且将模糊语音基频输入转换器，转化重建标准语音的基频；
步骤6，根据重建标准语音的频谱包络特征量以及基频，合成重建标准语音；
步骤7，利用重建标准语音进行语义信息的识别。

2.根据权利要求1所述的模糊语音语义识别方法，其特征在于，步骤2中建立若干个样本选集，每个语音样本包括模糊语音样本和标准语音样本，且模糊语音样本的特征量相似度在预设的相似度范围之内；基于步骤1提取的模糊语音信号的频谱包络特征量，与每个样本选集的选集代表性特征量进行匹配，从而选定与模糊语音信号的频谱包络特征量匹配的样本选集。

3.根据权利要求2所述的模糊语音语义识别方法，其特征在于，步骤2中，所述样本选集具有n段语音样本，每个语音样本对应的模糊语音样本的频谱包络特征量为X1s,X2s…Xns，每个频谱包络特征量为d维度特征向量，组成样本选集的特征量矩阵XS＝{X1s,X2s…Xns}；对于d维中的第r维度，计算其在整个特征量矩阵XS的均值，表示为并且选取特征量矩阵XS中nk个特征量组成的子矩阵，记为子矩阵k，表示为从而特征量矩阵XS中每nk个特征向量组成一个子矩阵，共计c个子矩阵，即k＝1,2...c；子矩阵k在d维中的第r维度的均值表示为则计算c个子矩阵的类间距离：

并且计算c个子矩阵每个子矩阵的类内距离：

其中xks，r为XkS中每个特征向量在r维度上的取值；
计算c个子矩阵每个子矩阵的类内类间比例：
σ＝Db/Dw
进而确定具有最高的类内类间比例值的子矩阵为样本选集的选集代表性特征量。

4.根据权利要求1所述的模糊语音语义识别方法，其特征在于，步骤3中GAN架构的重建模型包括：生成器G以及鉴别器D；所述生成器根据输入该生成器的模糊语音的频谱包络特征量，重建标准语音的频谱包络特征量；所述鉴别器用于判断生成器重建的频谱包络特征量的真伪。

5.根据权利要求4所述的模糊语音语义识别方法，其特征在于，步骤3中生成器G的损失函数IG(G)表示为：

其中表示生成器G的对抗损失，Lc(G)表示生成器G的循环一致损失，表示循环一致损失的正则化参数，Lid(G)表示生成器G的特征映射损失，表示特征映射损失的正则化参数。

6.根据权利要求4所述的模糊语音语义识别方法，其特征在于，步骤3中鉴别器D的损失函数表示为：

...

【专利技术属性】
技术研发人员：孙斌，李东晓，
申请(专利权)人：特斯联北京科技有限公司，光控特斯联上海信息科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人