System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于STFT的回声静音器制造技术_技高网

基于STFT的回声静音器制造技术

技术编号:41158909 阅读:5 留言:0更新日期:2024-04-30 18:22
一种用于基于短时傅里叶变换的回声静音的方法(300),包括从声学扬声器(118)接收麦克风信号(202),麦克风信号(202)包括由麦克风捕获并且对应于音频内容(154)的声学回声(156),以及接收包括表示音频内容的帧序列的参考信号(158)。对于每个帧,该方法包括使用声学回声消除器(210)进行处理,并且使用双端通话检测器(220)基于相应帧和输出信号帧来确定相应帧是包括双端通话帧还是仅回声帧,该声学回声消除器(210)被配置为接收相应帧作为输入以生成相应输出信号帧(206),该输出信号帧(206)从相应帧中消除声学回声。对于包括仅回声帧的每个相应帧,对相应输出信号帧静音,并且对于包括双端通话帧的每个相应帧,对相应输出信号帧执行语音处理。

【技术实现步骤摘要】
【国外来华专利技术】

本公开涉及一种基于短时傅里叶变换的回声静音器。


技术介绍

1、语音启用设备能够生成合成的回放音频并将合成的回放音频传送到语音环境内的一个或多个用户。当语音启用设备输出合成的回放音频时,语音启用设备的麦克风可以将合成的回放音频捕获为声学回声,同时主动捕获由用户说出的指向语音启用设备的语音。不幸的是,对于源自合成的回放音频的声学回声,语音识别器可能难以识别在来自合成的回放音频的回声期间发生的由用户说出的语音。


技术实现思路

1、本公开的一个方面提供了一种使用基于stft的回声静音器来执行语音识别的计算机实现的方法。当在数据处理硬件上执行时,该计算机实现的方法使数据处理硬件执行包括接收包括由麦克风捕获的声学回声的麦克风信号的操作。声学回声对应于从声学扬声器回放的音频内容。操作还包括接收参考信号,该参考信号包括表示在声学扬声器回放音频内容之前在参考通道中发射的音频内容的帧序列。对于麦克风信号的帧序列中的每个帧,操作还包括使用被配置为接收参考信号的帧序列中的相应帧作为输入的声学回声消除器来处理麦克风信号的相应帧,以生成从麦克风信号的相应帧消除声学回声的相应输出信号帧。操作还包括使用双端通话检测器(dtd)基于参考信号的相应帧和相应输出信号帧来确定麦克风信号的相应帧是包括双端通话帧还是仅回声帧。对于包括仅回声帧的麦克风信号的帧序列中的每个相应帧,操作还包括对相应输出信号帧静音。在对于包括仅回声帧的麦克风信号的帧序列中的每个相应帧对相应输出信号帧静音之后,操作还包括对于包括双端通话帧的麦克风信号的所述帧序列中的每个相应帧,对相应输出信号帧执行语音处理。

2、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,麦克风信号的一部分进一步包括表示由麦克风捕获的目标语音的音频信号,以及当麦克风信号的相应帧包括表示目标语音的音频信号时,确定麦克风信号的相应帧是包括双端通话帧还是仅回声帧。这里,目标语音在从声学扬声器回放音频内容时说出。在一些示例中,执行语音处理包括使用自动语音识别(asr)模型执行语音识别。在一些实施方案中,在使用dtd来确定麦克风信号的相应帧是包括所述双端通话帧还是所述仅回声帧之前,操作进一步包括将麦克风信号、参考信号和输出信号的每个相应帧转换到短时傅里叶变换域。

3、在一些示例中,确定所述麦克风信号的相应帧是包括双端通话帧还是仅回声帧包括:使用dtd基于麦克风信号的相应帧与参考信号的相应帧之间的互相关来计算相应第一帧级双端通话指示符;以及使用dtd基于麦克风信号的相应帧与相应输出信号帧之间的互相关来计算相应第二帧级双端通话指示符。这些示例还包括确定相应第一帧级双端通话指示符或相应第二帧级双端通话指示符中的至少一个是否满足双端通话阈值;以及当相应第一帧级双端通话指示符或相应第二帧级双端通话指示符中的至少一个满足双端通话阈值时,确定麦克风信号的相应帧包括双端通话帧。在这些示例中,确定麦克风信号的相应帧是包括双端通话帧还是仅回声帧可以进一步包括:当相应第一帧级双端通话指示符和相应第二帧级双端通话指示符两者都未能满足双端通话阈值时,确定麦克风信号的相应帧包括仅回声帧。可以在预定范围的频率子带上计算相应第一帧级双端通话指示符和相应第二帧级双端通话指示符。附加地或替代地,确定相应第一帧级双端通话指示符或相应第二帧级双端通话指示符中的至少一个是否满足双端通话阈值可以包括:当相应第一帧级双端通话指示符和相应第二帧级双端通话指示符中的最小值小于双端通话阈值时,确定相应第一帧级双端通话指示符或相应第二帧级双端通话指示符中的至少一个满足双端通话阈值。

4、在一些实施方式中,对于麦克风信号的帧序列中的每个帧,操作进一步包括使用dtd,基于麦克风信号的相应帧与参考信号的相应帧或相应输出信号帧中的一个之间的互相关来计算相应第一帧级双端通话指示符。这里,确定麦克风信号的相应帧是包括双端通话帧还是仅回声帧基于相应第一帧级双端通话指示符。在这些实施方式中,操作可以进一步包括使用dtd,基于麦克风信号的相应帧与参考信号的相应帧或相应输出信号帧中的另一个之间的互相关来计算相应第二帧级双端通话指示符,其中,确定麦克风信号的相应帧是包括双端通话帧还是仅回声帧进一步基于相应第二帧级双端通话指示符。

5、在一些示例中,声学回声消除器包括线性声学回声消除器。在一些实施方式中,数据处理硬件、麦克风和声学扬声器驻留在用户计算设备上。在一些示例中,对于包括双端通话帧的麦克风信号的序列中的每个相应帧,对相应输出信号帧执行语音处理包括对相应输出信号帧执行语音处理,而不对相应输出信号帧执行声学回声抑制。

6、本公开的另一方面提供了一种用于使用基于stft的回声静音器来执行语音识别的系统。该系统包括数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储指令,该指令当在数据处理硬件上执行时使数据处理硬件执行操作,该操作包括接收包括由麦克风捕获的声学回声的麦克风信号。声学回声对应于从声学扬声器回放的音频内容。操作还包括接收参考信号,该参考信号包括表示在声学扬声器回放音频内容之前在参考通道中发射的音频内容的帧序列。对于麦克风信号的帧序列中的每个帧,操作包括使用声学回声消除器处理麦克风信号的相应帧以生成相应输出信号帧,声学回声消除器被配置为接收参考信号的帧序列中的相应帧作为输入,相应输出信号帧从麦克风信号的相应帧消除声学回声。操作还包括使用双端通话检测器(dtd)基于参考信号的相应帧和相应输出信号帧来确定麦克风信号的相应帧是包括双端通话帧还是仅回声帧。对于包括仅回声帧的麦克风信号的帧序列中的每个相应帧,操作还包括对相应输出信号帧静音。在对于包括仅回声帧的麦克风信号的帧序列中的每个相应帧对相应输出信号帧静音之后,操作包括对于包括双端通话帧的麦克风信号的帧序列中的每个相应帧,对相应输出信号帧执行语音处理。

7、该方面可以包括以下可选特征中的一个或多个。在一些实施方式中,麦克风信号的一部分进一步包括表示由麦克风捕获的目标语音的音频信号,以及当麦克风信号的相应帧包括表示目标语音的音频信号时,确定麦克风信号的相应帧是包括双端通话帧还是仅回声帧。这里,目标语音在从声学扬声器回放音频内容时说出。在一些示例中,执行语音处理包括使用自动语音识别(asr)模型执行语音识别。在一些实施方案中,在使用dtd来确定麦克风信号的相应帧是包括双端通话帧还是仅回声帧之前,操作进一步包括将麦克风信号、参考信号和输出信号的每个相应帧转换到短时傅里叶变换域。

8、在一些示例中,确定麦克风信号的相应帧是包括双端通话帧还是仅回声帧包括:使用dtd基于麦克风信号的相应帧与参考信号的相应帧之间的互相关来计算相应第一帧级双端通话指示符;以及使用dtd基于麦克风信号的相应帧与相应输出信号帧之间的互相关来计算相应第二帧级双端通话指示符。这些示例还包括确定相应第一帧级双端通话指示符或相应第二帧级双端通话指示符中的至少一个是否满足双端通话阈值;以及当相应第一帧级双端通话指示符或相应第二帧级双端通话指示符中的至少一个满足双端通话阈值本文档来自技高网...

【技术保护点】

1.一种计算机实现的方法(300),所述方法当在数据处理硬件(410)上执行时,使得所述数据处理硬件(410)执行操作,所述操作包括:

2.根据权利要求1所述的计算机实现的方法(300),其中:

3.根据权利要求1或2所述的计算机实现的方法(300),其中,执行语音处理包括使用自动语音识别(ASR)模型(145)执行语音识别。

4.根据权利要求1-3中的任一项所述的计算机实现的方法(300),其中,所述操作进一步包括:在使用所述DTD(220)来确定所述麦克风信号(202)的相应帧是包括所述双端通话帧还是所述仅回声帧之前,将所述麦克风信号(202)、所述参考信号(158)和所述输出信号(206)的每个相应帧转换到短时傅里叶变换(STFT)域。

5.根据权利要求1-4中的任一项所述的计算机实现的方法(300),其中,确定所述麦克风信号(202)的相应帧是包括所述双端通话帧还是所述仅回声帧包括:

6.根据权利要求5所述的计算机实现的方法(300),其中,确定所述麦克风信号(202)的所述相应帧是包括所述双端通话帧还是所述仅回声帧进一步包括:当所述相应第一帧级双端通话指示符(208a)和所述相应第二帧级双端通话指示符(208b)两者都未能满足所述双端通话阈值时,确定所述麦克风信号(202)的所述相应帧包括所述仅回声帧。

7.根据权利要求5或6所述的计算机实现的方法(300),其中,在预定范围的频率子带上计算所述相应第一帧级双端通话指示符(208a)和所述相应第二帧级双端通话指示符(208b)。

8.根据权利要求5至7中的任一项所述的计算机实现的方法(300),其中,确定所述相应第一帧级双端通话指示符(208a)或所述相应第二帧级双端通话指示符(208b)中的至少一个是否满足所述双端通话阈值包括:当所述相应第一帧级双端通话指示符(208a)和所述相应第二帧级双端通话指示符(208b)中的最小值小于所述双端通话阈值时,确定所述相应第一帧级双端通话指示符(208a)或所述相应第二帧级双端通话指示符(208b)中的至少一个满足所述双端通话阈值。

9.根据权利要求1-8中的任一项所述的计算机实现的方法(300),其中,所述操作进一步包括,对于所述麦克风信号(202)的所述帧序列中的每个帧:

10.根据权利要求9所述的计算机实现的方法(300),其中,所述操作进一步包括,对于所述麦克风信号(202)的所述帧序列中的每个帧:

11.根据权利要求1-10中的任一项所述的计算机实现的方法(300),其中,所述声学回声消除器(210)包括线性声学回声消除器。

12.根据权利要求1-11中的任一项所述的计算机实现的方法(300),其中,所述数据处理硬件(410)、所述麦克风(116)和所述声学扬声器(118)驻留在用户计算设备(110)上。

13.根据权利要求1所述的计算机实现的方法(300),其中,对于包括所述双端通话帧的所述麦克风信号(202)的所述序列中的每个相应帧对所述相应输出信号帧(206)执行语音处理包括对所述相应输出信号帧(206)执行语音处理,而不对所述相应输出信号帧(206)执行声学回声抑制。

14.一种系统,包括:

15.根据权利要求14所述的系统,其中:

16.根据权利要求14或15所述的系统,其中,执行语音处理包括使用自动语音识别(ASR)模型(145)执行语音识别。

17.根据权利要求14-16中的任一项所述的系统,其中,所述操作进一步包括:在使用所述DTD(220)来确定所述麦克风信号(202)的相应帧是包括所述双端通话帧还是所述仅回声帧之前,将所述麦克风信号(202)、所述参考信号(158)和所述输出信号(206)的每个相应帧转换到短时傅里叶变换(STFT)域。

18.根据权利要求14-17中的任一项所述的系统,其中,确定所述麦克风信号(202)的相应帧是包括所述双端通话帧还是所述仅回声帧包括:

19.根据权利要求18所述的系统,其中,确定所述麦克风信号(202)的所述相应帧是包括所述双端通话帧还是所述仅回声帧进一步包括:当所述相应第一帧级双端通话指示符(208a)和所述相应第二帧级双端通话指示符(208b)两者都未能满足所述双端通话阈值时,确定所述麦克风信号(202)的所述相应帧包括所述仅回声帧。

20.根据权利要求18或19所述的系统,其中,在预定范围的频率子带上计算所述相应第一帧级双端通话指示符(208a)和所述相应第二帧级双端通话指示符(208b)。

21.根据权利要求18-...

【技术特征摘要】
【国外来华专利技术】

1.一种计算机实现的方法(300),所述方法当在数据处理硬件(410)上执行时,使得所述数据处理硬件(410)执行操作,所述操作包括:

2.根据权利要求1所述的计算机实现的方法(300),其中:

3.根据权利要求1或2所述的计算机实现的方法(300),其中,执行语音处理包括使用自动语音识别(asr)模型(145)执行语音识别。

4.根据权利要求1-3中的任一项所述的计算机实现的方法(300),其中,所述操作进一步包括:在使用所述dtd(220)来确定所述麦克风信号(202)的相应帧是包括所述双端通话帧还是所述仅回声帧之前,将所述麦克风信号(202)、所述参考信号(158)和所述输出信号(206)的每个相应帧转换到短时傅里叶变换(stft)域。

5.根据权利要求1-4中的任一项所述的计算机实现的方法(300),其中,确定所述麦克风信号(202)的相应帧是包括所述双端通话帧还是所述仅回声帧包括:

6.根据权利要求5所述的计算机实现的方法(300),其中,确定所述麦克风信号(202)的所述相应帧是包括所述双端通话帧还是所述仅回声帧进一步包括:当所述相应第一帧级双端通话指示符(208a)和所述相应第二帧级双端通话指示符(208b)两者都未能满足所述双端通话阈值时,确定所述麦克风信号(202)的所述相应帧包括所述仅回声帧。

7.根据权利要求5或6所述的计算机实现的方法(300),其中,在预定范围的频率子带上计算所述相应第一帧级双端通话指示符(208a)和所述相应第二帧级双端通话指示符(208b)。

8.根据权利要求5至7中的任一项所述的计算机实现的方法(300),其中,确定所述相应第一帧级双端通话指示符(208a)或所述相应第二帧级双端通话指示符(208b)中的至少一个是否满足所述双端通话阈值包括:当所述相应第一帧级双端通话指示符(208a)和所述相应第二帧级双端通话指示符(208b)中的最小值小于所述双端通话阈值时,确定所述相应第一帧级双端通话指示符(208a)或所述相应第二帧级双端通话指示符(208b)中的至少一个满足所述双端通话阈值。

9.根据权利要求1-8中的任一项所述的计算机实现的方法(300),其中,所述操作进一步包括,对于所述麦克风信号(202)的所述帧序列中的每个帧:

10.根据权利要求9所述的计算机实现的方法(300),其中,所述操作进一步包括,对于所述麦克风信号(202)的所述帧序列中的每个帧:

11.根据权利要求1-10中的任一项所述的计算机实现的方法(300),其中,所述声学回声消除器(210)包括线性声学回声消除器。

12.根据权利要求1-11中的任一项所述的计算机实现的方法(300),其中,所述数据处理硬件(410)、所述麦克风(116)和所述声学扬声器(118)驻留在用户计算设备(110)上。

13.根据权利要求1所述的计算机实现的方法(300),其中,对于包括所述双端通话帧的所述麦克风信号(202)的所述序列中的每个相...

【专利技术属性】
技术研发人员:图拉伊·扎基扎德·沙别斯塔雷阿伦·纳拉亚南
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1