一种用户语音指令的识别方法和系统技术方案

技术编号:38462798 阅读:24 留言:0更新日期:2023-08-11 14:39
本申请涉及一种用户语音指令的识别方法和系统,其中,该方法包括:采集录音数据,其中,录音数据包含用户发出的语音指令信号和扬声器发出的音响信号;获取回采数据,其中,回采数据为扬声器发出的音响信号对应的音响数据;基于录音数据和回采数据之间的预设时延差,校准同步录音数据和回采数据,得到标准录音数据和标准回采数据;基于标准回采数据,对标准录音数据中的音响信号进行过滤,得到待识别录音数据;从待识别录音数据中识别出用户的语音指令。通过本申请,解决了如何在扬声器发声场景下提高用户语音指令的识别准确率的问题,实现了基于时延差校准录音数据和回采数据,准确地滤除录音数据中的音响信号,提高用户语音指令的识别准确率。的识别准确率。的识别准确率。

【技术实现步骤摘要】
一种用户语音指令的识别方法和系统


[0001]本申请涉及音频数据处理
,特别是涉及一种用户语音指令的识别方法和系统。

技术介绍

[0002]现在家庭智能投影仪都有多种工作模式,其中,智能语音识别(远场AI语音模式),通过投影仪的麦克风接收并识别用户的语音指令以对投影仪执行相应操作。但是用户发出语音指令时,投影仪的扬声器一般也在发声,为了精确识别用户的语音指令,则需要基于回采数据来滤除录音数据中扬声器所发出的音响信号,其中,录音数据由麦克风获得,其包括扬声器发出的音响信号和语音信号,回采数据为扬声器发出的音响信号对应的原始音响数据。
[0003]目前,由于硬件问题,如在芯片处理器被其他运行程序过多占用的情况下,音响数据在功放芯片处理过程中,以及在缓冲内存处理过程中会存在delay的问题,导致得到的录音数据与回采数据不同步,阻碍了录音数据中音响信号的滤除,影响了用户语音指令的识别准确率。
[0004]目前针对相关技术中如何在扬声器发声场景下提高用户语音指令的识别准确率的问题,尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了一种用户语音指令的识别方法和系统,以至少解决相关技术中如何在扬声器发声场景下提高用户语音指令的识别准确率的问题。
[0006]第一方面,本申请实施例提供了一种用户语音指令的识别方法,所述方法包括:
[0007]采集录音数据,其中,所述录音数据包含用户发出的语音指令信号和扬声器发出的音响信号;
[0008]获取回采数据,其中,所述回采数据为所述扬声器发出的所述音响信号对应的音响数据;
[0009]基于所述录音数据和所述回采数据之间的预设时延差,校准同步所述录音数据和所述回采数据,得到标准录音数据和标准回采数据;
[0010]基于所述标准回采数据,对所述标准录音数据中的音响信号进行过滤,得到待识别录音数据;
[0011]从所述待识别录音数据中识别出用户的语音指令。
[0012]在其中一些实施例中,在基于所述录音数据和所述回采数据之间的预设时延差之前,所述方法包括:
[0013]若投影仪设备的时延差校正标识的数值为0,则通过第一时延差计算方式,计算得到所述录音数据和所述回采数据之间的预设时延差;
[0014]若投影仪设备的时延差校正标识的数值为1,则通过第二时延差计算方式,计算得
到所述录音数据和所述回采数据之间的预设时延差。
[0015]在其中一些实施例中,通过第一时延差计算方式,计算得到所述录音数据和所述回采数据之间的预设时延差包括:
[0016]依次在第一音量环境和第二音量环境下采集录音数据,分析得到在音量环境切换时所述录音数据的第一偏移地址;
[0017]依次在所述第一音量环境和所述第二音量环境下获取回采数据,分析得到在所述音量环境切换时所述回采数据的第二偏移地址;
[0018]基于所述第一偏移地址和所述第二偏移地址,计算得到所述录音数据和所述回采数据之间的预设时延差。
[0019]在其中一些实施例中,通过第一时延差计算方式,计算得到所述录音数据和所述回采数据之间的预设时延差还包括:
[0020]判断录音数据和回采数据在投影仪设备出厂前是否存在设置好的时延差,若存在,则将所述时延差作为所述录音数据和所述回采数据之间的预设时延差。
[0021]在其中一些实施例中,通过第二时延差计算方式,计算得到所述录音数据和所述回采数据之间的预设时延差包括:
[0022]使所述投影仪设备运行在不同的负荷区间下,分别计算得到在每个负荷区间下录音数据和回采数据之间的预设时延差。
[0023]在其中一些实施例中,分别计算得到在每个负荷区间下录音数据和回采数据之间的预设时延差包括:
[0024]重复执行每个负荷区间下录音数据和回采数据之间时延差的迭代计算,直至所述迭代计算的次数等于预设迭代次数,对所述迭代计算得到的所有时延差取平均,得到每个负荷区间对应的录音数据和回采数据之间的预设时延差;
[0025]所述迭代计算包括:
[0026]依次在第一音量环境和第二音量环境下采集录音数据,分析得到在音量环境切换时所述录音数据的第一偏移地址;
[0027]依次在所述第一音量环境和所述第二音量环境下获取回采数据,分析得到在所述音量环境切换时所述回采数据的第二偏移地址;
[0028]基于所述第一偏移地址和所述第二偏移地址,计算得到所述录音数据和所述回采数据之间的预设时延差。
[0029]在其中一些实施例中,基于所述第一偏移地址和所述第二偏移地址,计算得到所述录音数据和所述回采数据之间的预设时延差包括:
[0030]通过公式T=size/bytes和size=|addr1

addr2|计算得到所述录音数据和所述回采数据之间的预设时延差,其中,addr1为第一偏移地址,addr2为第二偏移地址,bytes为每秒采集的录音数据和回采数据的字节数,T为预设时延差。
[0031]在其中一些实施例中,所述第一音量环境为分贝值为0的音量环境,所述第二音量环境为超声波分贝值的音量环境。
[0032]在其中一些实施例中,采集录音数据包括:
[0033]基于预设唤醒词唤醒投影仪设备的录音装置,通过所述录音装置采集录音数据。
[0034]第二方面,本申请实施例提供了一种用户语音指令的识别系统,所述系统包括功
放采集模块、缓存获取模块、校准同步模块、信号滤除模块和语音识别模块;
[0035]所述功放采集模块,用于采集录音数据,其中,所述录音数据包含用户发出的语音指令信号和扬声器发出的音响信号;
[0036]所述缓存获取模块,用于获取回采数据,其中,所述回采数据为所述扬声器发出的所述音响信号对应的音响数据;
[0037]所述校准同步模块,用于根据所述录音数据和所述回采数据之间的预设时延差,校准同步所述录音数据和所述回采数据,得到标准录音数据和标准回采数据;
[0038]所述信号滤除模块,用于根据所述标准回采数据,对所述标准录音数据中的音响信号进行过滤,得到待识别录音数据;
[0039]所述语音识别模块,用于从所述待识别录音数据中识别出用户的语音指令。
[0040]相比于相关技术,本申请实施例提供的一种用户语音指令的识别方法和系统,以至少解决相关技术中的问题。该方法通过采集录音数据,其中,录音数据包含用户发出的语音指令信号和扬声器发出的音响信号;获取回采数据,其中,回采数据为扬声器发出的音响信号对应的音响数据;基于录音数据和回采数据之间的预设时延差,校准同步录音数据和回采数据,得到标准录音数据和标准回采数据;基于标准回采数据,对标准录音数据中的音响信号进行过滤,得到待识别录音数据;从待识别录音数据中识别出用户的语音指令,解决了如何在扬声器发声场景下提高用户语音指令的识别准确率的问题,实现了基于时延差校准录音数据和回采数据,准确地滤本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用户语音指令的识别方法,其特征在于,所述方法包括:采集录音数据,其中,所述录音数据包含用户发出的语音指令信号和扬声器发出的音响信号;获取回采数据,其中,所述回采数据为所述扬声器发出的所述音响信号对应的音响数据;基于所述录音数据和所述回采数据之间的预设时延差,校准同步所述录音数据和所述回采数据,得到标准录音数据和标准回采数据;基于所述标准回采数据,对所述标准录音数据中的音响信号进行过滤,得到待识别录音数据;从所述待识别录音数据中识别出用户的语音指令。2.根据权利要求1所述的方法,其特征在于,在基于所述录音数据和所述回采数据之间的预设时延差之前,所述方法包括:若投影仪设备的时延差校正标识的数值为0,则通过第一时延差计算方式,计算得到所述录音数据和所述回采数据之间的预设时延差;若投影仪设备的时延差校正标识的数值为1,则通过第二时延差计算方式,计算得到所述录音数据和所述回采数据之间的预设时延差。3.根据权利要求2所述的方法,其特征在于,通过第一时延差计算方式,计算得到所述录音数据和所述回采数据之间的预设时延差包括:依次在第一音量环境和第二音量环境下采集录音数据,分析得到在音量环境切换时所述录音数据的第一偏移地址;依次在所述第一音量环境和所述第二音量环境下获取回采数据,分析得到在所述音量环境切换时所述回采数据的第二偏移地址;基于所述第一偏移地址和所述第二偏移地址,计算得到所述录音数据和所述回采数据之间的预设时延差。4.根据权利要求2所述的方法,其特征在于,通过第一时延差计算方式,计算得到所述录音数据和所述回采数据之间的预设时延差还包括:判断录音数据和回采数据在投影仪设备出厂前是否存在设置好的时延差,若存在,则将所述时延差作为所述录音数据和所述回采数据之间的预设时延差。5.根据权利要求2所述的方法,其特征在于,通过第二时延差计算方式,计算得到所述录音数据和所述回采数据之间的预设时延差包括:使所述投影仪设备运行在不同的负荷区间下,分别计算得到在每个负荷区间下录音数据和回采数据之间的预设时延差。6.根据权利要求5所述的方法,其特征在于,分别计算得到在每个负荷区间下录音数据和回采数据之间的预设时延差包括:重复执行每个负荷区...

【专利技术属性】
技术研发人员:金凌琳李志林春明
申请(专利权)人:当趣网络科技杭州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1