【技术实现步骤摘要】
语音分离方法、系统、移动终端及存储介质
本专利技术属于语音分离
,尤其涉及一种语音分离方法、系统、移动终端及存储介质。
技术介绍
语音识别技术已经越来越多的应用在我们的日常生活当中,通过语音识别可以更加便捷的与智能设备进行交流,例如通过音箱来听取新闻,或者通过语音来操作电视,通过车载语音系统来发出导航指令等。但是由于人们在发出语音操作指令的时可能是在不同的场景下,而这些场景中可能同时有其他人在说话,此时他人的说话声就有可能会影响到语音识别的效果,因此,语音识别过程中的语音分离方法尤为重要。现有的语音识别过程中,在处理多人同时说话的音频时,不能有效的进行语音分离,使得无法单独识别指定人的语音,进而容易导致语音识别结果的错误,降低了语音识别的准确性。
技术实现思路
本专利技术实施例的目的在于提供一种语音分离方法、系统、移动终端及存储介质,旨在解决现有的语音识别过程中,由于不能有效的进行语音分离所导致的语音识别准确性低下的问题。本专利技术实施例是这样实现的,一种语音分离方法,所述方 ...
【技术保护点】
1.一种语音分离方法,其特征在于,所述方法包括:/n获取样本音频,并对所述样本音频进行音频组合,得到标签音频数据;/n对所述标签音频数据进行音频融合,得到融合音频,并对所述融合音频和标签音频数据进行频谱转换,得到融合频谱图特征和标签频谱图特征;/n构建LSTM网络和Mask网络,得到语音分离模型,并将所述融合频谱图特征输入所述LSTM网络和所述Mask网络进行计算,得到频谱过滤特征;/n根据所述频谱过滤特征和所述融合频谱图特征进行预测计算,得到预测频谱特征;/n根据所述预测频谱特征和所述标签频谱图特征进行损失计算,得到损失值,并根据所述损失值对所述语音分离模型进行迭代训练, ...
【技术特征摘要】
1.一种语音分离方法,其特征在于,所述方法包括:
获取样本音频,并对所述样本音频进行音频组合,得到标签音频数据;
对所述标签音频数据进行音频融合,得到融合音频,并对所述融合音频和标签音频数据进行频谱转换,得到融合频谱图特征和标签频谱图特征;
构建LSTM网络和Mask网络,得到语音分离模型,并将所述融合频谱图特征输入所述LSTM网络和所述Mask网络进行计算,得到频谱过滤特征;
根据所述频谱过滤特征和所述融合频谱图特征进行预测计算,得到预测频谱特征;
根据所述预测频谱特征和所述标签频谱图特征进行损失计算,得到损失值,并根据所述损失值对所述语音分离模型进行迭代训练,直至所述语音分离模型收敛;
将待识别语音输入所述语音分离模型进行语音分离,以得音频分离文件。
2.如权利要求1所述的语音分离方法,其特征在于,所述构建LSTM网络和Mask网络的步骤包括:
构建Grid-LSTM网络,并在所述Grid-LSTM网络之后构建全连接网络;
在所述全连接网络之后构建一个双向LSTM网络,并构建两个全连接层,两个所述全连接层用于将所述双向LSTM网络的输出结果转为时间帧数*129维度。
3.如权利要求2所述的语音分离方法,其特征在于,所述Grid-LSTM网络包括64个神经元,所述Grid-LSTM网络的输出结果为时间帧数*1408;
所述Bidirection-LSTM双向LSTM网络包括前向LSTM网络和后向LSTM网络,所述前向LSTM网络和所述后向LSTM网络均是3层结构,均包括896个神经元。
4.如权利要求1所述的语音分离方法,其特征在于,所述根据所述频谱过滤特征和所述融合频谱图特征进行预测计算的步骤包括:
将所述频谱过滤特征与对应所述融合频谱图特征进行点对点相乘,以得到所述预测频谱特征。
5.如权利要求1所述的语音分离方法,其特征在于,所述根据所述损失值对所述语音分离模型进行迭代训练的步骤包括:
根据参数优化器对所述损失值进行迭代优化,并根...
【专利技术属性】
技术研发人员:曾志先,肖龙源,李稀敏,蔡振华,刘晓葳,
申请(专利权)人:厦门快商通科技股份有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。