可变帧长的拾音方法、电子设备、计算机可读存储介质技术

技术编号：24173669 阅读：27 留言：0更新日期：2020-05-16 03:49

本发明专利技术涉及一种可变帧长的拾音方法、电子设备、计算机可读存储介质，用于动态选取合适的音频帧时长，使系统既能保障语音识别成功率，又能满足信号处理及低时延的要求，其中方法包括：步骤A.从音频传输链路建立之刻起，每隔设定的音频帧时长，截取该时间段内所拾音的混合信号，并从中提取人声信号作为音频包进行音频传输；步骤B.在音频传输链路建立之后，实时检测人声停顿间隔；步骤C.每当检测到人声停顿间隔时，在该间隔内拾取音频更新至噪声样本，并判断噪声样本的幅值变化趋势，若新噪声样本的幅值比前一噪声样本大，则增大此后发送的音频包的音频帧时长，若新噪声样本的幅值比前一噪声样本小，则降低此后发送的音频包的音频帧时长。

全部详细技术资料下载

【技术实现步骤摘要】
可变帧长的拾音方法、电子设备、计算机可读存储介质
本专利技术涉及耳机播音领域，尤其涉及一种可变帧长的拾音方法、电子设备、计算机可读存储介质。
技术介绍
见图1，智能语音交互类蓝牙产品，包括音箱、耳机等，需要拾取本地麦克风信号进行降噪处理，然后通过蓝牙将信号发送给移动设备，由移动设备将语音信号发送给远端设备进行语音识别。传统的声音上行链路，为了保证通信的实时性，一般采用音频帧时长为20ms间隔的音频包，通过FIFO机制，不断对拾音信号进行接收并发送。上述这种方式，对于信噪比较高的低噪声环境来说，由于人声信号相对于噪声信号较大，并没有太大问题，但对于高噪声环境而言，由于人声信号大部分被噪声信号湮没，仅通过20ms的时间间隔，所提取的人声信号的特征分析时长并不足以让远端设备进行准确地语音识别，导致远端设备的语音识别成功率较低。上述问题可以通过增大音频帧时长来解决，但太长的音频帧时长，对应的编解码及信号处理时间就越长，系统的通信时延就会越大，这是与实时语音交互相背离的。因此，对于智能语音交互类蓝牙产品...

【技术保护点】
1.可变帧长的拾音方法，其特征在于，包括：/n步骤A.从音频传输链路建立之刻起，每隔设定的音频帧时长，截取该时间段内所拾音的混合信号，并从中提取人声信号作为音频包进行音频传输；/n步骤B.在音频传输链路建立之后，实时检测人声停顿间隔；/n步骤C.每当检测到人声停顿间隔时，在该间隔内拾取音频更新至噪声样本，并判断噪声样本的幅值变化趋势，若新噪声样本的幅值比前一噪声样本大，则增大此后发送的音频包的音频帧时长，若新噪声样本的幅值比前一噪声样本小，则降低此后发送的音频包的音频帧时长。/n

【技术特征摘要】
1.可变帧长的拾音方法，其特征在于，包括：
步骤A.从音频传输链路建立之刻起，每隔设定的音频帧时长，截取该时间段内所拾音的混合信号，并从中提取人声信号作为音频包进行音频传输；
步骤B.在音频传输链路建立之后，实时检测人声停顿间隔；
步骤C.每当检测到人声停顿间隔时，在该间隔内拾取音频更新至噪声样本，并判断噪声样本的幅值变化趋势，若新噪声样本的幅值比前一噪声样本大，则增大此后发送的音频包的音频帧时长，若新噪声样本的幅值比前一噪声样本小，则降低此后发送的音频包的音频帧时长。

2.根据权利要求1所述的方法，其特征在于，步骤A中，提取人声信号的方法包括：
拾取完音频包中的混合信号后，将此前更新的噪声样本与该混合信号分别转换至频域进行频谱相减，再将相减所得波形转换至时域，从而获得该音频包的人声信号。

3.根据权利要求2所述的方法，其特征在于：步骤A进一步包括：
在开始建立音频传输链路之刻到成功建立音频传输链路之刻的时间空挡内，拾取音频作为初始的噪声样本。
...

【专利技术属性】
技术研发人员：陈洪太，吴长凤，闫荣辉，
申请(专利权)人：佳禾智能科技股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人