一种语音检测方法、装置、设备及可读存储介质制造方法及图纸

技术编号：40741710 阅读：4 留言：0更新日期：2024-03-25 20:01

本申请实施例公开了一种语音检测方法、装置、设备及可读存储介质，其中，方法包括：获取图像数据集，基于该图像数据集确定与该图像数据集关联的音频数据中的起始语音对应的第一数据帧，该图像数据集包括第二数据帧对应的图像数据，该第二数据帧为该第一数据帧或者该第一数据帧之后的任一数据帧；获取第二数据帧对应的图像数据的图像特征，以及该第二数据帧对应的音频数据的音频特征；基于该第二数据帧对应的图像特征和该第二数据帧对应的音频特征，确定该第二数据帧对应的语音检测结果，该语音检测结果用于指示该第二数据帧存在语音的概率。采用本申请实施例，可以提升语音检测准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及音视频处理领域，尤其涉及一种语音检测方法、装置、设备及可读存储介质。

技术介绍

1、随着电子设备的智能化程度越来越高，电子设备提供的功能越来越多，例如视频直播、视频录制等，这些功能需要摄像装置采集包含语音的视频数据。为了获得较清晰的语音效果并应用在对应的业务场景如噪声估计场景中，则需要检测出视频数据中每个数据帧存在语音的概率，从而对视频数据进行噪声估计。

2、目前的语音检测方法一般是通过对整个视频数据中的语音进行检测，确定每个数据帧存在语音的概率，由于多种场景下存在噪音，会导致语音检测准确性较低。

技术实现思路

1、本申请实施例提供一种语音检测方法、装置、设备及可读存储介质，可以提升语音检测准确性。

2、第一方面，本申请提供一种语音检测方法，包括：

3、获取图像数据集，基于该图像数据集确定与该图像数据集关联的音频数据中的起始语音对应的第一数据帧，该图像数据集包括第二数据帧对应的图像数据，该第二数据帧为该第一数据帧或者该第一数据帧之后的任一数据帧；

4、获取该第二数据帧对应的图像数据的图像特征，以及该第二数据帧对应的音频数据的音频特征；

5、基于该第二数据帧对应的图像特征和该第二数据帧对应的音频特征，确定该第二数据帧对应的语音检测结果，该语音检测结果用于指示该第二数据帧存在语音的概率。

6、第二方面，本申请提供了一种语音检测装置，其特征在于，该装置包括：

7、起始语音确定单元，用于获取图像数

8、特征获取单元，用于获取第二数据帧对应的图像数据的图像特征，以及该第二数据帧对应的音频数据的音频特征；

9、语音检测单元，用于基于该第二数据帧对应的图像特征和该第二数据帧对应的音频特征，确定该第二数据帧对应的语音检测结果，该语音检测结果用于指示该第二数据帧存在语音的概率。

10、结合第二方面，在一种可能的实现方式中，该图像数据集包括多个数据帧对应的图像数据；该起始语音确定单元，具体用于：

11、分别提取该多个数据帧中每个数据帧对应的图像数据的图像特征；

12、分别对该每个数据帧对应的图像数据的图像特征进行图像检测，得到每个数据帧对应的图像检测结果，该每个数据帧对应的图像检测结果用于指示该每个数据帧存在语音的概率；

13、获取存在语音的概率大于语音阈值的至少一个待选数据帧，将该至少一个待选数据帧中包括最早时间的数据帧确定为该音频数据中的起始语音对应的第一数据帧。

14、结合第二方面，在一种可能的实现方式中，该语音检测单元，具体用于：

15、对该第二数据帧对应的图像特征进行图像检测得到图像检测结果；

16、对该第二数据帧对应的音频特征进行音频检测得到音频检测结果；

17、基于该图像检测结果和该音频检测结果，确定该第二数据帧对应的语音检测结果。

18、结合第二方面，在一种可能的实现方式中，该语音检测单元，具体用于：

19、识别与该图像数据集关联的目标场景，分别获取该目标场景下图像对应的第一权重和音频对应的第二权重；

20、基于该第一权重、该图像检测结果、该第二权重和该音频检测结果，确定该第二数据帧对应的语音检测结果。

21、结合第二方面，在一种可能的实现方式中，该第二数据帧对应的图像检测结果指示该第二数据帧存在语音的概率小于或等于语音阈值；该语音检测单元，具体用于：

22、分别获取该第二数据帧的前n个数据帧的图像检测结果和该第二数据帧的后m个数据帧的图像检测结果，m和n均为自然数；

23、若该前n个数据帧的图像检测结果指示存在语音的概率均大于该语音阈值，且该后m个数据帧的图像检测结果指示存在语音的概率均大于该语音阈值，则获取该第二数据帧对应的图像检测结果、该前n个数据帧的图像检测结果以及该后m个数据帧的图像检测结果之间的第一语音概率均值，将该第一语音概率均值确定为该第二数据帧对应的图像检测结果。

24、结合第二方面，在一种可能的实现方式中，该语音检测装置还包括网络训练单元，用于：

25、获取样本图像集和样本图像标签；

26、采用初始图像检测网络分别对该样本图像集中的每个样本图像进行特征提取，得到每个样本图像的样本图像特征；

27、对该每个样本图像特征进行图像检测得到每个样本图像的样本图像检测结果；

28、基于该每个样本图像的样本图像检测结果和该样本图像标签训练该初始图像检测网络，得到目标图像检测网络；

29、采用该目标图像检测网络对该第二数据帧对应的图像特征进行图像检测得到图像检测结果。

30、结合第二方面，在一种可能的实现方式中，该网络训练单元，还用于：

31、获取样本音频集和样本音频标签；

32、采用初始音频检测网络分别对该样本音频集中的每个样本音频进行特征提取，得到每个样本音频的样本音频特征；

33、对该每个样本音频特征进行音频检测得到每个样本音频的样本音频检测结果；

34、基于该每个样本音频的样本音频检测结果和该样本音频标签训练该初始音频检测网络，得到目标音频检测网络；

35、采用该目标音频检测网络对该第二数据帧对应的音频特征进行音频检测得到音频检测结果。

36、结合第二方面，在一种可能的实现方式中，该语音检测单元，具体用于：

37、对该第二数据帧对应的图像特征和该第二数据帧对应的音频特征进行特征融合，得到该第二数据帧对应的融合特征；

38、对该融合特征进行语音检测，得到该第二数据帧对应的语音检测结果。

39、结合第二方面，在一种可能的实现方式中，该网络训练单元，还用于：

40、获取样本特征集和样本语音标签集，该样本特征集包括多个数据帧对应的样本音频特征和样本图像特征，该样本语音标签集包括该多个数据帧对应的样本语音标签；

41、采用初始语音检测网络对每个数据帧对应的样本图像特征和样本音频特征进行特征融合，得到该每个数据帧对应的样本融合特征；

42、对该每个数据帧对应的样本融合特征进行语音检测，得到该每个数据帧对应的样本语音检测结果；

43、基于该每个数据帧对应的样本语音检测结果和该样本语音标签集，训练该初始语音检测网络，得到目标语音检测网络；

44、采用该目标语音检测网络对该融合特征进行语音检测，得到该第二数据帧对应的语音检测结果。

45、第三方面，本申请提供了一种计算机设备，包括：处理器、存储器、网络接口；

46、上述处理器与存储器、网络接口相连，其中，网络接口用于提供数据通信功能，本文档来自技高网...

【技术保护点】

1.一种语音检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述图像数据集包括多个数据帧对应的图像数据；

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述第二数据帧对应的图像特征和所述第二数据帧对应的音频特征，确定所述第二数据帧对应的语音检测结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述图像检测结果和所述音频检测结果，确定所述第二数据帧对应的语音检测结果，包括：

5.根据权利要求3所述的方法，其特征在于，所述第二数据帧对应的图像检测结果指示所述第二数据帧存在语音的概率小于或等于语音阈值；

6.根据权利要求3所述的方法，其特征在于，所述方法还包括：

7.根据权利要求3所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1或2所述的方法，其特征在于，所述基于所述第二数据帧对应的图像特征和所述第二数据帧对应的音频特征，确定所述第二数据帧对应的语音检测结果，包括：

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：</p>

10.一种语音检测装置，其特征在于，所述方法包括：

11.一种计算机设备，其特征在于，包括：处理器、存储器以及网络接口；

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1-9任一项所述的方法。

...

【技术特征摘要】

1.一种语音检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述图像数据集包括多个数据帧对应的图像数据；

4.根据权利要求3所述的方法，其特征在于，所述基于所述图像检测结果和所述音频检测结果，确定所述第二数据帧对应的语音检测结果，包括：

5.根据权利要求3所述的方法，其特征在于，所述第二数据帧对应的图像检测结果指示所述第二数据帧存在语音的概率小于或等于语音阈值；

6.根据权利要求3所述的方法，其特征在于，所述方法还...

【专利技术属性】
技术研发人员：武倩平，
申请(专利权)人：书行科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人