终端设备、终端设备插件、片上系统和相关方法技术方案

技术编号:33758784 阅读:38 留言:0更新日期:2022-06-12 14:07
本公开实施例提供了一种终端设备、终端设备插件、片上系统和相关方法。该终端设备包括:第一传声器;第二传声器;波束成形器,用于将第一信号和第二信号之间的时延补齐后进行叠加,成为波束成形信号,所述第一信号是所述第一传声器接收到的信号,所述第二信号是所述第二传声器接收到的信号;频点部分处理单元,用于将所述第一信号和所述第二信号分成频域中的频点部分,对各频点部分进行处理,以增强所述波束成形信号中的语音。本公开提高了具有传声器阵列的终端设备的语音增强效果。阵列的终端设备的语音增强效果。阵列的终端设备的语音增强效果。

【技术实现步骤摘要】
终端设备、终端设备插件、片上系统和相关方法


[0001]本公开涉及电子领域,更具体而言,涉及一种终端设备、终端设备插件、片上系统和相关方法。

技术介绍

[0002]自动语音识别(ASR)是将人的语音识别为文本的技术,广泛用于机器人对话、智能家居、音箱、声控应用(APP)等领域。例如,对于音箱来说,一般要求用户说出特定词,音箱识别出特定词之后开始工作。再例如,对于智能家居中的智能冰箱来说,智能冰箱识别出用户说出的“打开冰箱”、“关上冰箱”等指令,执行相应动作。近年来,上述诸如音箱、智能家居等的终端设备经常采用传声器阵列来收集用户的声音,识别出唤醒该终端设备工作的语音。常见的传声器阵列是双传声器阵列。为了增强语音的识别效果,需要语音增强。一种典型的语音增强算法是波束成形。最为广泛的波束成形算法是延迟求和。即,对两个传声器采集到的语音信号进行时延补齐,然后将补齐后信号进行叠加。由于双传声器阵列的波束成形的语音增强效果有限,通常在上述波束成形之后加上一个后置滤波。
[0003]传统意义上的后置滤波是通过假设信号与噪声不相关,然后进行信号与噪声的功率谱估计,从而在波束成形信号上实现维纳滤波。这种算法对假设的要求比较高。在智能终端设备的实际使用环境中,信号与噪声通常存在很强的相关性,延迟求和波束成形后并没有消除相干噪声,因而增强效果很差。

技术实现思路

[0004]有鉴于此,本公开旨在提高双传声器终端设备的语音增强效果。
[0005]为了达到这个目的,根据本公开的一方面,本公开提供一种终端设备,包括:
[0006]第一传声器;
[0007]第二传声器;
[0008]波束成形器,用于将第一信号和第二信号之间的时延补齐后进行叠加,成为波束成形信号,所述第一信号是所述第一传声器接收到的信号,所述第二信号是所述第二传声器接收到的信号;
[0009]频点部分处理单元,用于将所述第一信号和所述第二信号分成频域中的频点部分,对各频点部分进行处理,以增强所述波束成形信号中的语音。
[0010]可选地,所述对各频点部分进行处理包括:
[0011]确定所述第一信号和所述第二信号在频点的修正后相位差;确定所述修正后相位差是否满足第一预定条件;如果不满足第一预定条件,将该频点部分进行抑制。
[0012]可选地,所述第一预定条件包括:所述修正后相位差小于第一阈值;所述抑制包括:滤除该频点部分。
[0013]可选地,所述第一预定条件包括:所述修正后相位差小于第一阈值;所述抑制包括:如果所述修正后相位差在所述第一阈值和第二阈值之间,则将所述频点部分衰减预定
比率;如果所述修正后相位差大于第二阈值之间,则将所述频点部分滤除,其中,所述第二阈值大于所述第一阈值。
[0014]可选地,所述确定所述第一信号和所述第二信号在频点的修正后相位差,包括:
[0015]确定所述第一信号和所述第二信号的相位角的差;
[0016]确定所述第一信号和所述第二信号的时延;
[0017]用所述相位角的差减去该频点的角频率与所述时延的积,得到所述修正后相位差。
[0018]可选地,所述确定所述第一信号和所述第二信号的相位角的差,包括:
[0019]根据所述第一信号和所述第二信号变换到频域后的实部和虚部,分别确定所述第一信号的相位角和所述第二信号的相位角;
[0020]将所述第一信号的相位角和所述第二信号的相位角相减,得到所述相位角的差。
[0021]可选地,所述确定所述第一信号和所述第二信号的时延,包括:
[0022]获取候选时延集合;
[0023]针对候选时延集合中的候选时延,用所述相位角的差减去该频点的角频率与所述候选时延的积,得到候选修正后相位差,如果确定频点的所述候选修正后相位差不满足第二预定条件,将所述波束成形信号的该频点部分进行抑制,并将抑制后的波束成形信号输入先验语音识别模型,由所述先验语音识别模型输出识别出特定词的概率;
[0024]将候选时延集合中所述先验语音识别模型输出概率最大的候选时延,作为确定的时延。
[0025]可选地,该终端设备还包括:识别单元,用于对所述频点部分处理单元输出的信号进行语音识别。
[0026]可选地,该终端设备还包括:处理器,用于根据语音识别结果,执行相应动作。
[0027]可选地,所述终端设备包括音箱,所述相应动作包括开启所述音箱。
[0028]根据本公开的一方面,提供了一种终端设备,包括:
[0029]基准传声器,接收到第一信号;
[0030]多个其它传声器,分别接收到第二信号;
[0031]波束成形器,用于将各第二信号相比于第一信号的时延补齐,将各时延补齐后的第二信号与第一信号叠加,成为波束成形信号;
[0032]频点部分处理单元,用于将所述第一信号和第二信号分成频域中的频点部分,对各频点部分进行处理,以增强所述波束成形信号中的语音。
[0033]可选地,所述对各频点部分进行处理包括:
[0034]确定所述第一信号和各第二信号在频点的修正后相位差;确定确定的各修正后相位差的平均值是否满足第一预定条件;如果不满足第一预定条件,将该频点部分进行抑制。
[0035]根据本公开的一方面,提供了一种终端设备插件,用于插接在具有第一传声器、第二传声器和波束成形器的终端设备,所述波束成形器用于将第一信号和第二信号之间的时延补齐后进行叠加,成为波束成形信号,所述第一信号是所述第一传声器接收到的信号,所述第二信号是所述第二传声器接收到的信号,所述终端设备插件包括:
[0036]频点部分处理单元,用于将所述第一信号和所述第二信号分成频域中的频点部分,对各频点部分进行处理,以增强所述波束成形信号中的语音。
[0037]根据本公开的一方面,提供了一种终端设备插件,用于插接在具有基准传声器、多个其它传声器和波束成形器的终端设备,所述基准传声器接收到第一信号,所述多个其它传声器分别接收到第二信号,所述波束成形器将各第二信号相比于第一信号的时延补齐,将各时延补齐后的第二信号与第一信号叠加,成为波束成形信号,所述终端设备插件包括:频点部分处理单元,用于将所述第一信号和所述第二信号分成频域中的频点部分,对各频点部分进行处理,以增强所述波束成形信号中的语音。
[0038]根据本公开的一方面,提供了一种片上系统,与终端设备的第一传声器和第二传声器的输入及终端设备的波束成形器的输出连接,所述波束成形器用于将第一信号和第二信号之间的时延补齐后进行叠加,成为波束成形信号,所述第一信号是所述第一传声器接收到的信号,所述第二信号是所述第二传声器接收到的信号,所述片上系统包括:频点部分处理单元,用于将所述第一信号和所述第二信号分成频域中的频点部分,对各频点部分进行处理,以增强所述波束成形信号中的语音。
[0039]可选地,所述对各频点部分进行处理包括:确定所述第一信号和所述第二信号在频点的修正后相位差;确定所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种终端设备,包括:第一传声器;第二传声器;波束成形器,用于将第一信号和第二信号之间的时延补齐后进行叠加,成为波束成形信号,所述第一信号是所述第一传声器接收到的信号,所述第二信号是所述第二传声器接收到的信号;频点部分处理单元,用于将所述第一信号和所述第二信号分成频域中的频点部分,对各频点部分进行处理,以增强所述波束成形信号中的语音。2.根据权利要求1所述的终端设备,其中,所述对各频点部分进行处理包括:确定所述第一信号和所述第二信号在频点的修正后相位差;确定所述修正后相位差是否满足第一预定条件;如果不满足第一预定条件,将该频点部分进行抑制。3.根据权利要求2所述的终端设备,其中,所述第一预定条件包括:所述修正后相位差小于第一阈值;所述抑制包括:滤除该频点部分。4.根据权利要求2所述的终端设备,其中,所述第一预定条件包括:所述修正后相位差小于第一阈值;所述抑制包括:如果所述修正后相位差在所述第一阈值和第二阈值之间,则将所述频点部分衰减预定比率;如果所述修正后相位差大于第二阈值之间,则将所述频点部分滤除,其中,所述第二阈值大于所述第一阈值。5.根据权利要求2所述的终端设备,其中,所述确定所述第一信号和所述第二信号在频点的修正后相位差,包括:确定所述第一信号和所述第二信号的相位角的差;确定所述第一信号和所述第二信号的时延;用所述相位角的差减去该频点的角频率与所述时延的积,得到所述修正后相位差。6.根据权利要求5所述的终端设备,其中,所述确定所述第一信号和所述第二信号的相位角的差,包括:根据所述第一信号和所述第二信号变换到频域后的实部和虚部,分别确定所述第一信号的相位角和所述第二信号的相位角;将所述第一信号的相位角和所述第二信号的相位角相减,得到所述相位角的差。7.根据权利要求5所述的终端设备,其中,所述确定所述第一信号和所述第二信号的时延,包括:获取候选时延集合;针对候选时延集合中的候选时延,用所述相位角的差减去该频点的角频率与所述候选时延的积,得到候选修正后相位差,如果确定频点的所述候选修正后相位差不满足第二预定条件,将所述波束成形信号的该频点部分进行抑制,并将抑制后的波束成形信号输入先验语音识别模型,由所述先验语音识别模型输出识别出特定词的概率;将候选时延集合中所述先验语音识别模型输出概率最大的候选时延,作为确定的时延。8.根据权利要求1所述的终端设备,还包括:识别单元,用于对所述频点部分处理单元输出的信号进行语音识别。9.根据权利要求8所述的终端设备,还包括:处理器,用于根据语音识别结果,执行相应
动作。10.根据权利要求9所述的终端设备,其中,所述终端设备包括音箱,所述相应动作包括开启所述音箱。11.一种终端设备,包括:基准传声器,接收到第一信号;多个其它传声器,分别接收到第二信号;波束成形器,用于将各第二信号相比于第一信号的时延补齐,将各时延补齐后的第二信号与第一信号叠加,成为波束成形信号;频点部分处理单元,用于将所述第一信号和第二信号分成频域中的频点部分,对各频点部分进行处理,以增强所述波束成形信号中的语音。12.根据权利要求11所述的终端设备,其中,所述对各频点部分进行处理包括:确定所述第一信号和各第二信号在频点的修正后相位差;确定确定的各修正后相位差的平均值是否满足第一预定条件;如果不满足第一预定条件,将该频点部分进行抑制。13.一种终端设备插件,用于插接在具有第一传声器、第二传声器和波束成形器的终端设备,所述波束成形器用于将第一信号和第二信号之间的时延补齐后进行叠加,成为波束成形信号,所述第一信号是所述第一传声器接收到的信号,所述第二信号是所述第二传声器接收到的信号,所述终端设备插件包括...

【专利技术属性】
技术研发人员:吴泽先
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1