语音定位方法、装置、计算机可读介质及电子设备制造方法及图纸

技术编号:33292693 阅读:18 留言:0更新日期:2022-05-01 00:15
本申请属于人工智能技术领域,具体涉及一种语音定位方法、装置、计算机可读介质及电子设备。该方法包括:获取语音信息,对所述语音信息进行处理以获取与所述语音信息对应的频谱信息,其中所述语音信息包括背景音和主语音;将所述频谱信息输入至语音识别模型中,通过所述语音识别模型对所述频谱信息中的主语音进行识别,以获取主语音信息,所述主语音信息包括主语音概率曲线;根据所述主语音概率曲线中的局部极值点,确定所述主语音在所述语音信息中所对应的起止时间点。本申请能够精准定位语音信息中的主语音,提高语音定位的准确度和时效性。效性。效性。

【技术实现步骤摘要】
语音定位方法、装置、计算机可读介质及电子设备


[0001]本申请属于人工智能
,具体涉及一种语音定位方法、语音定位装置、计算机可读介质以及电子设备。

技术介绍

[0002]随着多媒体技术的发展,人们常常会使用电子设备录制音频或视频,而为了将音频或视频中的人声及对应的时间提取出来,通常需要将人声与背景音进行分离,然后对人声进行定位。
[0003]目前,对语音进行定位的方法主要有两种,一种是基于音源分离的定位方法,但是该方法依赖于音源分离的准确度,由于音源分离本身不完美,会带来一些误判,并且对于音视频中其它的人声也会被判定为目标人声,造成误判,另外音源分离比较耗时,会增加语音定位的资源占用;另一种是基于卷积神经网络进行预测的方案,但是该方案依赖于数据的标注,标注数据本身难以获取,人工标注会占用大量人力,如果采用弱标注数据训练得到的模型对语音进行识别定位则存在准确率低的问题。

技术实现思路

[0004]本申请的目的在于提供一种语音定位方法、语音定位装置、计算机可读介质以及电子设备,能够克服相关技术中存在的语音定位准确率低、用时长、标注数据难以获取及模型性能差的问题。
[0005]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0006]根据本申请实施例的一个方面,提供一种语音定位方法,该方法包括:获取语音信息,对所述语音信息进行处理以获取与所述语音信息对应的频谱信息,其中所述语音信息包括背景音和主语音;将所述频谱信息输入至语音识别模型中,通过所述语音识别模型对所述频谱信息中的主语音进行识别,以获取主语音信息,所述主语音信息包括主语音概率曲线;根据所述主语音概率曲线中的局部极值点,确定所述主语音在所述语音信息中所对应的起止时间点。
[0007]根据本申请实施例的一个方面,提供一种语音定位装置,该装置包括:信息处理模块,被配置为获取语音信息,对所述语音信息进行处理以获取与所述语音信息对应的频谱信息,其中所述语音信息包括背景音和主语音;语音识别模块,被配置为将所述频谱信息输入至语音识别模型中,通过所述语音识别模型对所述频谱信息中的主语音进行识别,以获取主语音信息,所述主语音信息包括主语音概率曲线;语音定位模块,被配置为根据所述主语音概率曲线中的局部极值点,确定所述主语音在所述语音信息中所对应的起止时间点。
[0008]在本申请的一些实施例中,所述频谱信息为梅尔频谱图;基于以上技术方案,所述信息处理模块配置为:对所述语音信息进行分帧和加窗,并对加窗后的所述语音信息进行傅里叶变换,以获取与所述语音信息对应的声谱图;通过梅尔尺度滤波器对所述声谱图进
行滤波处理,以获取所述梅尔频谱图。
[0009]在本申请的一些实施例中,所述语音识别模型包括卷积网络模块、特征增强网络模块、长短期记忆网络模块和分类预测模块;基于以上技术方案,语音识别模块包括:卷积单元,被配置为通过所述卷积网络模块对所述频谱信息进行分段特征提取,以获取多个频谱特征图;增强单元,被配置为通过所述特征增强网络模块对各所述频谱特征图进行下采样后上采样并反向回传,以获取与各所述频谱特征图对应的频谱增强特征图;融合单元,被配置为通过所述长短期记忆网络模块对各所述频谱增强特征图中的深层语义和浅层时间信息进行融合,以获取融合特征信息;预测单元,被配置为通过所述分类预测模块对所述融合特征信息中的主语音进行预测,以获取所述主语音信息。
[0010]在本申请的一些实施例中,基于以上技术方案,所述卷积网络模块包括多个结构相同的卷积网络单元,所述卷积网络单元包括第一卷积单元、第二卷积单元、池化层和随机剔除层,同时所述第一卷积单元和所述第二卷积单元均包括二维卷积层、批归一化层和激活函数层。
[0011]在本申请的一些实施例中,所述特征增强网络模块包括第一卷积网络单元和第二卷积网络单元,所述第一卷积网络单元和所述第二卷积网络单元的结构与所述卷积网络单元的结构相同;基于以上技术方案,增强单元配置为:通过所述第一卷积网络单元对所述频谱特征图进行下采样以获取第一特征图,并通过所述第二卷积网络单元对所述第一特征图进行下采样以获取第二特征图;对所述第二特征图进行上采样以获取第三特征图,同时采用1
×
1的卷积核对所述第一特征图进行卷积操作,并将所述第三特征图和卷积处理后的所述第一特征图进行拼接,以获取第四特征图;对所述第四特征图进行上采样以获取第五特征图,同时采用1
×
1的卷积核对所述频谱特征图进行卷积操作,并将所述第五特征图和卷积处理后的所述频谱特征图进行拼接,以获取所述频谱增强特征图;其中,所述上采样对应的步长和所述下采样对应的步长相同。
[0012]在本申请的一些实施例中,基于以上技术方案,语音定位模块配置为:根据所述主语音概率曲线中任意两个相邻波谷将所述主语音概率曲线划分为多个主语音区间;获取各所述主语音区间中的局部极值点,将极大值点对应的时间点标记为所述主语音的起始时间点,并将极小值点对应的时间点标记为所述主语音的终止时间点。
[0013]在本申请的一些实施例中,基于以上技术方案,语音定位装置还包括:样本获取模块,被配置为获取语音样本和自动生成的与所述语音样本对应的主语音标注信息;模型训练模块,被配置为根据所述语音样本和所述主语音标注信息对待训练语音识别模型进行训练,以获取所述语音识别模型。
[0014]在本申请的一些实施例中,基于以上技术方案,样本获取模块配置为:对所述语音样本进行音源分离,以获取背景音波形图和主语音波形图;根据预设时间间隔对所述背景音波形图和所述主语音波形图进行切片,并确定各时间切片对应的主语音能量和背景音能量之间的能量比;根据所述语音样本中各句主语音的起始时间点将所述语音样本划分为多个语音区间;分别将各所述语音区间作为目标语音区间,获取所述目标语音区间的起始时间点所对应的目标能量比,并根据所述目标能量比和能量比下界确定能量比最大值;将所述目标语音区间中各时间切片对应的能量比与所述能量比最大值进行比较,根据所述目标语音区间中能量比大于或等于所述能量比最大值的连续时间切片确定主语音区间,并对所
述主语音区间进行标注以形成所述语音标注信息。
[0015]在本申请的一些实施例中,所述待训练语音识别模型包括待训练卷积网络模块、待训练特征增强网络模块、待训练长短期记忆网络模块和待训练分类预测模块;基于以上技术方案,模型训练模块包括:第一训练单元,被配置为固定所述待训练长短期记忆网络模块和所述待训练分类预测模块的参数,根据所述语音样本和所述主语音标注信息对所述待训练卷积网络模块和所述待训练特征增强网络模块进行训练,以获取收敛的卷积网络模块和特征增强网络模块;第二训练单元,被配置为固定所述卷积网络模块和所述特征增强网络模块的参数,根据所述语音样本和所述主语音标注信息对所述待训练长短期记忆网络模块和所述待训练分类预测模块进行训练,以获取收敛的长短期记忆网络模块和分类预测模块。
[0016]在本申请的一些实施例中,基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音定位方法,其特征在于,包括:获取语音信息,对所述语音信息进行处理以获取与所述语音信息对应的频谱信息,其中所述语音信息包括背景音和主语音;将所述频谱信息输入至语音识别模型中,通过所述语音识别模型对所述频谱信息中的主语音进行识别,以获取主语音信息,所述主语音信息包括主语音概率曲线;根据所述主语音概率曲线中的局部极值点,确定所述主语音在所述语音信息中所对应的起止时间点。2.根据权利要求1所述的方法,其特征在于,所述频谱信息为梅尔频谱图;所述对所述语音信息进行处理以获取与所述语音信息对应的频谱信息,包括:对所述语音信息进行分帧和加窗,并对加窗后的所述语音信息进行傅里叶变换,以获取与所述语音信息对应的声谱图;通过梅尔尺度滤波器对所述声谱图进行滤波处理,以获取所述梅尔频谱图。3.根据权利要求1所述的方法,其特征在于,所述语音识别模型包括卷积网络模块、特征增强网络模块、长短期记忆网络模块和分类预测模块;所述通过所述语音识别模型对所述频谱信息中的主语音进行识别,以获取主语音信息,包括:通过所述卷积网络模块对所述频谱信息进行分段特征提取,以获取多个频谱特征图;通过所述特征增强网络模块对各所述频谱特征图进行下采样后上采样并反向回传,以获取与各所述频谱特征图对应的频谱增强特征图;通过所述长短期记忆网络模块对各所述频谱增强特征图中的深层语义和浅层时间信息进行融合,以获取融合特征信息;通过所述分类预测模块对所述融合特征信息中的主语音进行预测,以获取所述主语音信息。4.根据权利要求3所述的方法,其特征在于,所述卷积网络模块包括多个结构相同的卷积网络单元,所述卷积网络单元包括第一卷积单元、第二卷积单元、池化层和随机剔除层,同时所述第一卷积单元和所述第二卷积单元均包括二维卷积层、批归一化层和激活函数层。5.根据权利要求4所述的方法,其特征在于,所述特征增强网络模块包括第一卷积网络单元和第二卷积网络单元,所述第一卷积网络单元和所述第二卷积网络单元的结构与所述卷积网络单元的结构相同;所述通过所述特征增强网络模块对各所述频谱特征图进行下采样后上采样并反向回传,以获取与各所述频谱特征图对应的频谱增强特征图,包括:通过所述第一卷积网络单元对所述频谱特征图进行下采样以获取第一特征图,并通过所述第二卷积网络单元对所述第一特征图进行下采样以获取第二特征图;对所述第二特征图进行上采样以获取第三特征图,同时采用1
×
1的卷积核对所述第一特征图进行卷积操作,并将所述第三特征图和卷积处理后的所述第一特征图进行拼接,以获取第四特征图;对所述第四特征图进行上采样以获取第五特征图,同时采用1
×
1的卷积核对所述频谱特征图进行卷积操作,并将所述第五特征图和卷积处理后的所述频谱特征图进行拼接,以
获取所述频谱增强特征图;其中,所述上采样对应的步长和所述下采样对应的步长相同。6.根据权利要求1所述的方法,其特征在于,所述根据所述主语音概率曲线中的局部极值点,确定所述主语音在所述语音信息中所对应的起止时间点,包括:根据所述主语音概率曲线中任意两个相邻波谷,将所述主语音概率曲线划分为多个主语音区间;获取各所述主语音区间中的局部极值点,将极大值点对应的时间点标记为所述主语音的起始时间点,并将极小值点对应的时间点标记为所述主语音的终止时间点。7.根据权利要求1~6任一项所述的方法,其特征在于,所述方法还包括:获取语音样本和自动生成的与所述语音样本对应的主语音标注信息;根据所述语音样本和所述主语音标注信息对待训练语音识别模型进行训练,以获取所述语音识别模型。8.根据权利要求7所述的方法,其特征在于,所述获取自动生成的与所述语音样本对应的主语音标注信息,包括:对所述语音样本进行音源分离,以获取背景音波形图和主语音波形图;根据预设时间间隔对所述背景音波形图和所述主语音波形图进行切片,并确定各时间切片对应的主语...

【专利技术属性】
技术研发人员:彭博
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1