音素识别方法、装置及计算机可读存储介质制造方法及图纸

技术编号：25124750 阅读：46 留言：0更新日期：2020-08-05 02:53

本申请提供了一种音素识别方法、装置及计算机可读存储介质。该音素识别方法包括：对音频信号的第一特征图进行单调递增或单调递减的第一变换处理得到第二特征图，所述第二特征图中声音强度值的动态范围小于所述第一特征图中声音强度值的动态范围，其中，所述第二特征图中声音强度值采用第一数据格式；将所述第二特征图中声音强度值由所述第一数据格式转换为第二数据格式；将具有所述第二数据格式的第二特征图输入至神经网络模型中，得到第一识别结果，以根据所述第一识别结果确定音素序列。利用上述音素识别方法，能够降低运算量、降低功耗、提高识别速度。

全部详细技术资料下载

【技术实现步骤摘要】
音素识别方法、装置及计算机可读存储介质
本申请属于语音识别领域，具体涉及一种音素识别方法、装置及计算机可读存储介质。
技术介绍
在语音识别领域中，音素(phoneme)，是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。现有的音素识别方法存在计算量大，反应速度慢的问题。
技术实现思路
本申请实施例提出了一种音素识别方法、装置及计算机可读存储介质。利用这种音素识别方法及装置，能够至少部分解决上述技术问题。本申请的实施例中提供了以下方案。本申请的实施例提供一种音素识别方法，包括：对音频信号的第一特征图进行单调递增或单调递减的第一变换处理得到第二特征图，所述第二特征图中声音强度值的动态范围小于所述第一特征图中声音强度值的动态范围，其中，所述第二特征图中声音强度值采用第一数据格式；将所述第二特征图中声音强度值由所述第一数据格式转换为第二数据格式；将具有所述第二数据格式的第二特征图输入至神经网络模型中，得到第一识别结果；根据所述第一识别结果确定音素序列。<...

【技术保护点】
1.一种音素识别方法，其特征在于，包括：/n对音频信号的第一特征图进行单调递增或单调递减的第一变换处理得到第二特征图，所述第二特征图中声音强度值的动态范围小于所述第一特征图中声音强度值的动态范围，其中，所述第二特征图中声音强度值采用第一数据格式；/n将所述第二特征图中声音强度值由所述第一数据格式转换为第二数据格式；/n将具有所述第二数据格式的第二特征图输入至神经网络模型中，得到第一识别结果；/n根据所述第一识别结果确定音素序列。/n

【技术特征摘要】
1.一种音素识别方法，其特征在于，包括：
对音频信号的第一特征图进行单调递增或单调递减的第一变换处理得到第二特征图，所述第二特征图中声音强度值的动态范围小于所述第一特征图中声音强度值的动态范围，其中，所述第二特征图中声音强度值采用第一数据格式；
将所述第二特征图中声音强度值由所述第一数据格式转换为第二数据格式；
将具有所述第二数据格式的第二特征图输入至神经网络模型中，得到第一识别结果；
根据所述第一识别结果确定音素序列。

2.根据权利要求1所述的音素识别方法，其特征在于，所述第一数据格式为浮点数格式，所述第二数据格式为定点数格式，且所述定点数的位数小于所述浮点数中尾数的位数。

3.根据权利要求1所述的音素识别方法，其特征在于，对音频信号的第一特征图进行单调递增或单调递减的第一变换处理得到第二特征图，包括：对所述第一特征图的声音强度值进行第一线性变换。

4.根据权利要求1所述的音素识别方法，其特征在于，根据所述第一识别结果确定音素序列，包括：
对所述第一识别结果进行第二线性变换，以使所述第二线性变换后的识别结果的平均值为预设平均值，且所述第二线性变换后的识别结果的方差为预设方差，第二线性变换后的识别结果为第二识别结果，所述第一识别结果采用定点数格式表示，所述第二识别结果采用浮点数格式表示且其中尾数的位数大于所述第一识别结果的位数；
对所述第二识别结果经集束搜索得到音素序列概率；
将所述音素序列概率经连接时序分类处理得到音素序列。

5.根据权利要求1所述的音素识别方法，其特征在于，根据所述第一识别结果确定音素序列，包括：
对所述第一识别结果经最大值搜索得到识别出的音素；
将所述识别出的音素经连接时序分类处理得到音素序列。

6.根据权利要求1所述的音素识别方法，其特征在于，还包括确定音频信号的第一特征图的步骤，其中包括：
对时域的音频信号加第一窗口，对每一个第一窗口内的音频信号进行短时傅里叶变换，得到第一频谱图，其中，所述第一窗口具有设定的时长；
对所述第一频谱图加第二窗口，得到连续的多个第一特征图，所述第二窗口具有设定的频率范围和设定的时长。

7.根据权利要求6所述的音素识别方法，其特征在于，确定音频信号的第一特征图，还包括：将所述第一频谱图中同一时间对应的每相邻设定数量频点的数据点合并为一个数据点。

8.根据权利要求6所述的音素识别方法，其特征在于，确定音频信号的第一特征图，还包括：
获取初始音频信号；
对所述初始音频信号进行预处理，得到所述时域的音频信号；
对所述时域的音频信号进行语音信号检测，如检测到语音信号则执行：对时域的音频信号加时间窗口，对每一个时间窗口内的音频信号进行短时傅里叶变换。

9.根据权利要求8所述的音素识别方法，其特征在于，对所述初始音频信号进行预处理，包括：对所述初始音频信号进行自动增益控制、回声消除、去混响中至少一项操作。

10.一种音素识别装置，其特征在于，包括：
第一变换模块，配置为对音频信号的第一特征图进行单调递增或单调递减的第一变换处理得到第二特征图，所述第二特征图中声音强度值的动态范围小于所述第一特征图中声音强度值的动态范围，其中，所述第二特征图中声音强度值采用第一数据格式；
第二变换模块，配置为将所述第二特征图中声音强度值由所述第一数据格式...

【专利技术属性】
技术研发人员：高威特，张楠赓，
申请(专利权)人：杭州嘉楠耘智信息科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人