一种基于多并行卷积神经网络的声学特征采样方法技术

技术编号：38590263 阅读：9 留言：0更新日期：2023-08-26 23:30

本发明专利技术公开一种基于多并行卷积神经网络的声学特征采样方法，步骤为：对语音数据集中原始音频信号进行转化，将原始的不定长时序信号转换为语谱图；将语谱图作为多并行卷积神经网络的输入数据进行计算，得到不同的特征图谱，将不同的特征图谱加权叠加，得到输出a；将语谱图经过池化层，得到输出b，合并输出a和输出b，将合并结果输入至特征提取卷积层来提取更高维度的特征；将得到的特征进行编码，传递给语音识别模块或语音翻译模块，构建完整的语音识别模型或语音翻译模型。本发明专利技术方法解决了因数据集中说话人的方式不同、音色不同等问题所导致语音特征难以提取问题，增强了语音的表示，实现标准化声学特征采样，提升了模型的鲁棒性。棒性。棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多并行卷积神经网络的声学特征采样方法

[0001]本专利技术公开一种声学特征采样方法，具体为基于多并行卷积神经网络的声学特征采样方法。

技术介绍

[0002]互联网技术的飞速发展带动着各种技术快速进步，例如声音、文字等信息的发送、接受、传递以及处理相关技术，均或多或少的从中受益得到提高。就目前而言，音频这类更容易表达情感的信息媒体更受人们喜爱，因此，对于这类信息的处理也就变的尤为重要。语音信号在人类生活中扮演着很关键的角色，人们无时无刻不在制造或者接受声音信号，日常人与人之间的交流就是最为典型的例子。同样在这个科技飞速发展的时代，通过语音信号实现人与机器之间的信息交互也是尤为重要，例如智能家居中的智能音箱，手机中的语音助手，汽车中配备的车载语音助手等。语音是日常生活中交流的主要媒介，同时，语音是一种富含信息的信号载体，它承载了语义、说话人、情绪、语种、方言等诸多信息。语音信息抽取类似于人类语言学习的思路，采用机器学习手段，让机器通过“聆听”大量的语音数据，并从语音数据中学习蕴含其中的规律。
[0003]在深度学习应用到语音建模领域之前，声学模型已经有了非常成熟的模型体系，从20世纪70年代开始，隐马尔科夫模型(HMM)理论被成功应用到语音识别中。在声学模型上，Fundamentals of Speech Recognition系统地介绍了如何训练一个大规模的连续语音识别系统，即HMM
‑
GMM模型，随着GMM模型的自适应、降噪、特征工程等方法的相继提出，增强了系统的性能和鲁棒性。传统...

【技术保护点】

【技术特征摘要】
1.一种基于多并行卷积神经网络的声学特征采样方法，其特征在于包括以下步骤：1)对语音数据集中原始音频信号进行转化，将原始的不定长时序信号转换为语谱图；2)将语谱图作为多并行卷积神经网络的输入数据进行计算，得到不同的特征图谱，将不同的特征图谱加权叠加，得到输出a；3)将语谱图经过池化层，得到输出b，合并输出a和输出b，将合并的结果输入至特征提取卷积层来提取更高维度的特征；4)将得到的特征进行编码，传递给语音识别模块或语音翻译模块，构建完整的语音识别模型或语音翻译模型。2.按权利要求1所述的基于多并行卷积神经网络的声学特征采样方法，其特征在于：在步骤1)中，对语音数据集中原始音频信号进行转化，将原始的不定长时序信号转换为语谱图，具体为：101)对原始信号预加重；102)对预加重后的信号进行分帧加窗，进行短时傅立叶变换，得到每帧信号的频谱图；103)对频谱图进行旋转，加映射；104)将映射后的多帧频谱进行拼接，形成语谱图。3.按权利要求1所述的基于多并行卷积神经网络的声学特征采样方法，其特征在于：步骤2)具体为：201)结合1
×
1、3
...

【专利技术属性】
技术研发人员：田丰宁，吕星宇，
申请(专利权)人：沈阳雅译网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人