语音内容的处理方法、装置、设备及可读存储介质制造方法及图纸

技术编号：29136611 阅读：43 留言：0更新日期：2021-07-02 22:32

本申请公开了一种语音内容的处理方法、装置、设备及可读存储介质，涉及机器学习领域。该方法包括：获取语音内容；对语音内容进行特征提取，得到第一数据格式的音频特征；对音频特征进行动态量化得到第二数据格式的量化特征，第一数据格式的数据位数大于第二数据格式的数据位数；将量化特征输入至语音处理模型，输出得到内容处理结果。通过将语音处理模型中的模型参数从第一数据格式量化至第二数据格式，且在进行音频特征处理之前首先将音频特征量化至第二数据格式，由于第一数据格式的数据位数大于第二数据格式的数据位数，从而减小了语音处理模型整体的数据占用量，减小了语音处理模型在移动设备中的外存(如flash)和内存占用情况。

全部详细技术资料下载

【技术实现步骤摘要】
语音内容的处理方法、装置、设备及可读存储介质
本申请实施例涉及机器学习领域，特别涉及一种语音内容的处理方法、装置、设备及可读存储介质。
技术介绍
随着机器学习领域的快速发展，对于在移动设备端使用离线神经网络的需求增大，如：在离线场景下，使用移动设备端的神经网络模型进行语音检测，从而对移动设备进行唤醒，而神经网络算法的发展导致神经网络对计算和内存的要求越来越大，以至于移动设备的计算能力和内存空间无法承受。相关技术中，以语音识别场景为例，通常利用神经网络TensorFlow和Pytorch框架训练声学模型，嵌入到语音框架Kaldi中，从而实现对声学模型的量化。然而，上述方式的实现成本较大，TensorFlow和Pytorch框架缺少语音解码器相关的技术，即使融合到语音框架Kaldi中，由于融合了两种框架，势必内存占用会增加，改造、维护成本也较大。
技术实现思路
本申请实施例提供了一种语音内容的处理方法、装置、设备及可读存储介质，能够加速神经网络对语音内容处理的推理速度，降低中央处理器(CentralProcess本文档来自技高网...

【技术保护点】
1.一种语音内容的处理方法，其特征在于，所述方法包括：/n获取语音内容，所述语音内容为待处理的内容；/n对所述语音内容进行特征提取，得到音频特征，所述音频特征对应第一数据格式；/n对所述音频特征进行动态量化处理后得到量化特征，所述量化特征对应第二数据格式，所述第一数据格式对应的数据位数大于所述第二数据格式对应的数据位数；/n将所述量化特征输入至语音处理模型，输出得到内容处理结果，所述语音处理模型中包括第一模型参数，所述第一模型参数对应所述第二数据格式，所述第一模型参数是由第二模型参数经过量化得到的参数，所述第二模型参数对应所述第一数据格式。/n

【技术特征摘要】
1.一种语音内容的处理方法，其特征在于，所述方法包括：
获取语音内容，所述语音内容为待处理的内容；
对所述语音内容进行特征提取，得到音频特征，所述音频特征对应第一数据格式；
对所述音频特征进行动态量化处理后得到量化特征，所述量化特征对应第二数据格式，所述第一数据格式对应的数据位数大于所述第二数据格式对应的数据位数；
将所述量化特征输入至语音处理模型，输出得到内容处理结果，所述语音处理模型中包括第一模型参数，所述第一模型参数对应所述第二数据格式，所述第一模型参数是由第二模型参数经过量化得到的参数，所述第二模型参数对应所述第一数据格式。

2.根据权利要求1所述的方法，其特征在于，所述对所述音频特征进行动态量化处理后得到量化特征，包括：
确定量化等级，所述量化等级用于表示所述第一数据格式量化至所述第二数据格式时的量化比例；
确定量化临界点，所述量化临界点表示所述第一数据格式量化至所述第二数据格式的临界参数；
基于所述量化等级和所述量化临界点对所述音频特征进行动态量化处理，得到所述量化特征。

3.根据权利要求2所述的方法，其特征在于，所述第一数据格式为浮点型数据格式；
所述确定量化等级，包括：
获取所述音频特征的浮点最大值和浮点最小值的第一差值；
获取所述音频特征的量化最大值和量化最小值的第二差值；
将所述第一差值与所述第二差值之间的第一比值，确定为所述量化等级。

4.根据权利要求3所述的方法，其特征在于，所述确定量化临界点，包括：
获取所述音频特征的所述浮点最小值与所述量化等级之间的第二比值；
将所述音频特征的所述量化最小值与所述第二比值之差，确定为所述量化临界点。

5.根据权利要求1至4任一所述的方法，其特征在于，所述语音处理模型包括输入层和中间层；
所述将所述量化特征输入至语音处理模型，输出得到内容处理结果，包括：
将所述量化特征输入至所述输入层，通过所述第一模型参数对所述量化特征进行特征处理，得到输入层特征，所述输入层特征对应第三数据格式；
对所述输入层特征进行动态量化处理，得到输入至所述中间层的第一输出，所述中间层位于所述输入层的下一层，所述第一输出对应所述第二数据格式；
通过所述中间层对所述第一输出进行处理，输出得到所述内容处理结果。

6.根据权利要求5所述的方法，其特征在于，所述语音处理模型包括n个中间层，n为正整数；
所述通过所述中间层对所述第一输出进行处理，输出得到所述内容处理结果，包括：
在第i个中间层通过所述第一模型参数对第i-1个中间层的输出进行处理，得到第i个中间层输出特征，所述第i个中间层输出对应所述第一数据格式，2≤i≤n-1；
对所述第i个中间层输出进行动态量化处理，得到第i个中间层的第二输出，所述第i个中间层的第二输出对应所述第三数据格式；
响应于所述n个中间层对所述第一输出逐层处理完毕，输出得到所述内容处理结果。

7.根据权利要求6所述的方法，其特征在于，所述语音处理模型还包括输...

【专利技术属性】
技术研发人员：李晋，马龙，张力，张晓明，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人