基于机器学习的智能语音交互误唤醒系统及方法技术方案

技术编号：40608818 阅读：4 留言：0更新日期：2024-03-12 22:16

本发明专利技术公开了基于机器学习的智能语音交互误唤醒系统及方法，涉及智能语音交互技术领域，该系统包括特征采集模块、验证比对模块以及执行输出模块，验证比对模块用于对唤醒词准确度评估值Pgz及口型动态数据做综合评估；其技术要点为：在唤醒词准确度评估值Pgz可用的前提下，对口型动态数据与数据库一致语音数据进行执行，利用语音和视频图像结合判断，避免误唤醒的情况发生，若是遇到无法检测到用户口型的场景下，则可通过智能设备之间的联动，利用至少两组语音采集单元获取同一环境下，可用的唤醒词准确度评估值Pgz，分析两组唤醒词准确度评估值Pgz的误差绝对值，在误差范围内即可判断出唤醒口令是否准确，可准确的完成唤醒操作。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及智能语音交互，具体为基于机器学习的智能语音交互误唤醒系统及方法。

技术介绍

1、智能语音交互是一种通过语音与计算机或其他设备进行交互的技术，它使用语音识别将用户的语音转换为文本，然后使用自然语言处理技术将文本进行理解和分析，最后通过语音合成将计算机的回应转换为语音输出，智能语音交互的目标是使人与计算机之间的交互更加自然和便捷，通过语音指令，用户可以向设备提出问题、发送命令、获取信息或执行各种任务，而无需通过键盘、鼠标或触摸屏进行操作，这使得智能语音交互在各种场景中广泛应用，如智能音箱、语音助手、智能家居以及车载系统。

2、现有申请公布号为cn115798473a的中国专利技术申请中，公开了一种语音交互的智能语音设备防误唤醒方法、系统及设备，应用于至少两台智能语音设备对应用户的视频语音交互上，每台智能语音设备上设置有用于识别的识别特征，该方法通过智能语音设备自身的识别特征与接收到唤醒指令中提取的唤醒识别特征进行对比，只有唤醒识别特征与智能语音设备的识别特征一致时，该智能语音设备才能根据唤醒指令执行相应的操作。

3、在以上专利技术申请中，使用到至少两台智能语音设备，需要对获取到的识别特征进行对比才能进行后续唤醒相关操作，然而在实际运用时持续使用两台智能语音设备的耗能量较多，对于获取到的识别特征相关参数较少，造成两台智能语音设备提取到的特征会存在一些不可避免的误差，该部分误差则会影响对于识别特征一致性的判断，使得用户即是正确说出唤醒口令的前提下，由于外界因素或是自身原因，会导致设备无法成功唤醒的情况出现。

技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足，本专利技术提供了基于机器学习的智能语音交互误唤醒系统及方法，在唤醒词准确度评估值pgz可用的前提下，对口型动态数据与数据库一致语音数据进行执行，利用语音和视频图像结合判断，避免误唤醒的情况发生，若是遇到无法检测到用户口型的场景下，则可通过智能设备之间的联动，利用至少两组语音采集单元获取同一环境下，可用的唤醒词准确度评估值pgz，分析两组唤醒词准确度评估值pgz的误差绝对值，在误差范围内即可判断出唤醒口令是否准确，可准确的完成唤醒操作，解决了
技术介绍
中提出的问题。

3、(二)技术方案

4、为实现以上目的，本专利技术通过以下技术方案予以实现：

5、基于机器学习的智能语音交互误唤醒系统，该系统应用到至少两个智能语音设备和一个智能监控设备，本申请中具体使用到结构、功能相同的第一智能语音设备和第二智能语音设备，且两个智能语音设备处于同一工作环境下，该系统包括特征采集模块、验证比对模块以及执行输出模块；

6、其中，所述特征采集模块包括第一语音采集单元、第二语音采集单元以及口型采集单元，第一语音采集单元和第二语音采集单元均用于采集语音数据，并获取唤醒词准确度评估值pgz，所述口型采集单元用于对人体脸部进行动态图像捕捉，并提取口型动态数据；

7、所述验证比对模块用于对唤醒词准确度评估值pgz及口型动态数据做综合评估；

8、所述执行输出模块根据综合评估的结果来选择是否唤醒智能语音设备。

9、进一步的，所述第一语音采集单元、第二语音采集单元采集到的语音数据分别来源于两个智能语音设备，且第一语音采集单元和第二语音采集单元内均设有预处理子单元和分析子单元。

10、其中，所述预处理子单元用于对采集到的语音数据进行标记，标记出唤醒词在每个语音片段中的位置，记录其他噪音数据，并完成噪音抑制，在对噪音抑制时利用到了频域滤波法，尽量减小杂音对语音信号的影响，提高语音信号清晰度；

11、所述分析子单元用于提取语音特征，建立模型训练并完成评估；

12、其中，分析子单元的具体步骤为：

13、s1、特征提取：针对语音片段中的标记位置，提取语音特征，该语音特征包括：频率p、频域能量n以及频域过零率l；

14、需要说明的是，频率p：声音的频率是指声波振动的频率，通常以赫兹为单位，不同频率的声波会产生不同的音调，频率可以通过音频信号的频谱分析来获取；快速傅里叶变换(fft)：将时域信号转换为频域信号，得到频谱，通过fft算法，可以将连续时间的信号转换为离散频谱；频域能量n：将音频信号通过fft算法变换到频域，计算每个频率分量的幅值的平方作为频域能量；频域过零率l：将音频信号通过fft算法变换到频域，计算相邻频率分量之间过零点的个数作为频域过零率；

15、在实际应用中，也可以使用音频处理库或软件工具，如librosa、matlab、python的scipy，来计算声音的频率p、频域能量n以及频域过零率l。

16、s2、模型训练：使用深度学习的神经网络，对提取到的语音特征进行训练，建立语音识别模型，训练过程在此不多做赘述；

17、s3、在语音识别模型中对获取到的频率p、频域能量n以及频域过零率l进行无量纲处理后，关联获取唤醒词准确度评估值pgz；

18、方式如下：

19、

20、式中，k1、k2、k3分别为频率p、频域能量n以及频域过零率l的预设比例系数，且k1、k2、k3均大于0，g为常数修正系数；

21、若是唤醒词准确度评估值pgz<设置的标准阈值，则判定采集到的语音数据可用；

22、若是唤醒词准确度评估值pgz≥设置的标准阈值，则判定采集到的语音数据不可用，需要重新进行语音数据采集处理。

23、具体的，将训练好的语音识别模型应用到实际场景中，通过输入语音数据，利用模型进行语音识别并输出相应的文本结果，该结果即获取唤醒词准确度评估值pgz，并判定集到的语音数据可不可用。

24、进一步的，所述口型采集单元的使用步骤如下：

25、s101、设备设置：选取深度摄像头作为智能监控设备，并将其固定安装于适当位置，以确保深度摄像头能够清晰地捕捉到人体脸部动态图像；

26、s102、脸部检测和跟踪：使用人脸识别算法，从深度摄像头拍摄的视频中检测和识别出人脸区域，使用人脸跟踪算法跟踪人脸区域的位置和姿态；其中人脸跟踪算法使用的是meanshift算法，该算法的原理为：根据上一帧目标的直方图及当前帧所得的图像来更新当前帧人脸位置，适用于本申请中进行单目标跟踪，能够确保跟踪结果的稳定性和准确性。

27、s103、口型提取：在脸部图像中，通过关键点检测法定位嘴唇区域的关键点，根据关键点的位置和运动，提取口型动态数据；需要说明的是：这些关键点可以用于描述嘴唇的形状和位置，在提取口型动态数据时使用到的常见方法至少包括：计算嘴唇区域的形状变化、距离变化以及角度变化。

28、进一步的，所述口型采集单元还包括判定子单元，若是能够提取到口型动态数据时，则进入验证比对模块完成下一步操作，若是无法提取到口型动态数据时，则触发提醒指令，并将该指令通过智能监控设备内置的蓝牙模块发送至另一智能语音设本文档来自技高网...

【技术保护点】

1.基于机器学习的智能语音交互误唤醒系统，该系统应用到至少两个智能语音设备和一个智能监控设备，其特征在于：该系统包括特征采集模块、验证比对模块以及执行输出模块；

2.根据权利要求1所述的基于机器学习的智能语音交互误唤醒系统，其特征在于：所述第一语音采集单元、第二语音采集单元采集到的语音数据分别来源于两个智能语音设备，且第一语音采集单元和第二语音采集单元内均设有预处理子单元和分析子单元。

3.根据权利要求2所述的基于机器学习的智能语音交互误唤醒系统，其特征在于：所述预处理子单元用于对采集到的语音数据进行标记，标记出唤醒词在每个语音片段中的位置，记录其他噪音数据，并完成噪音抑制。

4.根据权利要求2所述的基于机器学习的智能语音交互误唤醒系统，其特征在于：所述分析子单元用于提取语音特征，建立模型训练并完成评估；

5.根据权利要求1所述的基于机器学习的智能语音交互误唤醒系统，其特征在于：所述口型采集单元的使用步骤如下：

6.根据权利要求1所述的基于机器学习的智能语音交互误唤醒系统，其特征在于：所述口型采集单元还包括判定子单元，若

7.根据权利要求4所述的基于机器学习的智能语音交互误唤醒系统，其特征在于：所述验证比对模块包括数据库对比单元和评估值比对单元。

8.根据权利要求7所述的基于机器学习的智能语音交互误唤醒系统，其特征在于：所述数据库对比单元用于将检测到的口型动态数据与数据库进行比对，并作为第一语音采集单元的验证节点；

9.根据权利要求1所述的基于机器学习的智能语音交互误唤醒系统，其特征在于：所述执行输出模块用于获取验证比对模块的结果，若是通过，则执行第一策略，若是不通过，则执行第二策略；

10.一种基于机器学习的智能语音交互误唤醒方法，使用权利要求1至9中的任一种系统，其特征在于：包括如下步骤：

...

【技术特征摘要】

4.根据权利要求2所述的基于机器学习的智能语音交互误唤醒系统，其特征在于：所述分析子单元用于提取语音特征，建立模型训练并完成评估；

5.根据权利要求1所述的基于机器学习的智能语音交互误唤醒系统，其特征在于：所述口型采集单元的使用步骤如下：

6.根据权利要求1所述的基于机...

【专利技术属性】
技术研发人员：平继秒，
申请(专利权)人：山东凌晓通信科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人