基于唇语识别的语音确定方法、装置、设备和介质制造方法及图纸

技术编号：41229027 阅读：3 留言：0更新日期：2024-05-09 23:45

本申请涉及图像识别技术领域，尤其涉及一种基于唇语识别的语音确定方法、装置、设备和介质，方法包括：获取待识别视频，并提取待识别视频中的语音信息，语音信息包括：清晰语音和待识别语音；识别清晰语音，得到清晰语音的语句信息，语句信息包括：语句结构和特征词语；基于语句结构、特征词语和多个预设特征词语，确定与清晰语音对应的方言类别；确定与方言类别对应的目标唇语识别模型，并基于目标唇语识别模型对目标待识别视频进行识别，目标唇语识别模型为基于神经网络模型训练得到的，目标待识别视频为与待识别语音对应的视频。本申请具有提高唇语识别的精准度的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及图像识别，尤其是涉及一种基于唇语识别的语音确定方法、装置、设备和介质。

技术介绍

1、目前在办案的过程中，审查过程是侦破案件的重要工作，而在审查的过程中正确读取被审查人的语言，有助于更快更全面的了解实际案件情况，而在办案的过程中，通过识别被审查人的唇语可以实现被审查人语言的读取，可见，在办案过程中对被审查人进行唇语识别显得尤为重要。

2、一般地，审查人会获取监控视频，并提取监控视频中带有语音片段的目标视频，再直接使用与普通话对应的唇语识别模型对上述目标视频进行识别，以对被审查人的唇语进行识别；然而，不同的语言在描述同一事物时有着不同的发音，即对应唇语也不同，直接使用与普通话对应的唇语识别模型可能产生无法识别或识别错误的问题，可见，相关技术中唇语识别的精准度较差。

技术实现思路

1、为了提高唇语识别的精准度，本申请提供一种基于唇语识别的语音确定方法、装置、设备和介质。

2、第一方面，本申请提供一种方法，采用如下的技术方案：

3、一种基于唇语识别的语音确定方法，包括：

4、获取待识别视频，并提取所述待识别视频中的语音信息，所述语音信息包括：清晰语音和待识别语音；

5、识别所述清晰语音，得到所述清晰语音的语句信息，所述语句信息包括：语句结构和特征词语；

6、基于所述语句结构、所述特征词语和多个预设特征词语，确定与所述清晰语音对应的方言类别；

7、确定与所述方言类别对应的目标唇语识别模型，并基于所

8、本申请在一较佳示例中可以进一步配置为，所述特征词语包括：发音型词语和描述型词语，所述基于所述语句结构、所述特征词语和多个预设特征词语，确定与所述清晰语音对应的方言类别，包括：

9、基于预设的语句结构和所属地的对应关系和所述语句结构，确定所述语句结构对应的第一地区，所述第一地区表征省级地区；

10、获取第一地区对应的多个第二地区；

11、基于所述发音型词语、所述描述型词语和所有所述第二地区各自对应的多个预设特征词语进行匹配，确定若干目标第二地区；

12、确定所有所述目标第二地区各自对应的目标方言，并将所述目标方言确定为与所述清晰语音对应的方言类别。

13、本申请在一较佳示例中可以进一步配置为，所述发音型词语包括：第一字母型词语和第一声调型词语，所述基于所述发音型词语、所述描述型词语和所有所述第二地区各自对应的多个预设特征词语进行匹配，确定若干目标第二地区，包括：

14、基于所述描述型词语和所有所述第二地区各自对应的多个预设特征词语，确定若干初始第二地区，所述初始第二地区的描述型词语和所述描述型词语相同；

15、获取所有所述初始第二地区各自对应的第二字母型词语和各自对应的第二声调型词语；

16、基于所述第一字母型词语、所述第二字母型词语、所述第一声调型词语和所述第二声调型词语，从所有所述初始第二地区中确定若干目标第二地区。

17、本申请在一较佳示例中可以进一步配置为，所述基于所述第一字母型词语、所述第二字母型词语、所述第一声调型词语和所述第二声调型词语，从所有所述初始第二地区中确定若干目标第二地区，包括：

18、将所述第一字母型词语和所述第二字母型词语进行匹配，确定第一相似度；

19、将所述第一声调型词语和所述第二声调型词语进行匹配，确定第二相似度；

20、获取与所述第一字母型词语对应的第一权重值和所述第一声调型词语对应的第二权重值；

21、基于所述第一相似度、所述第一权重值、所述第二相似度和所述第二权重值，确定所有所述初始第二地区各自对应的相似度；

22、判断相似度是否大于预设相似度阈值；

23、若是，则将相似度大于预设相似度阈值对应的所述初始第二地区确定为所述目标第二地区。

24、本申请在一较佳示例中可以进一步配置为，所述目标唇语识别模型的训练过程，包括：

25、获取训练集，其中，所述训练集包括多个样本数据，所述样本数据为与方言对应的图像和与图像对应的标准唇语识别信息；

26、将多个所述样本数据利用未训练唇语识别模型进行唇语识别，得到多个样本数据各自对应的样本唇语识别信息；

27、基于所有所述样本唇语识别信息和各自对应的标准唇语识别信息，确定损失值；

28、根据所述损失值和所有所述样本数据对未训练唇语识别模型进行迭代训练，直至损失值达到预设损失阈值，得到训练完成的唇语识别模型。

29、本申请在一较佳示例中可以进一步配置为，所述基于所述目标唇语识别模型对目标待识别视频进行识别之前，还包括：

30、确定所述目标待识别视频中的待识别图像，并使用预设图像矫正算法对所述待识别图像进行矫正，得到矫正后的目标待识别视频；

31、相应的，所述基于所述目标唇语识别模型对目标待识别视频进行识别，包括：

32、基于所述目标唇语识别模型对所述矫正后的目标待识别视频进行识别。

33、第二方面，本申请提供一种基于唇语识别的语音确定装置，采用如下的技术方案：

34、一种基于唇语识别的语音确定装置，包括：

35、获取模块，用于获取待识别视频，并提取所述待识别视频中的语音信息，所述语音信息包括：清晰语音和待识别语音；

36、语句信息确定模块，用于识别所述清晰语音，得到所述清晰语音的语句信息，所述语句信息包括：语句结构和特征词语；

37、方言类别确定模块，用于基于所述语句结构、所述特征词语和多个预设特征词语，确定与所述清晰语音对应的方言类别；

38、识别模块，用于确定与所述方言类别对应的目标唇语识别模型，并基于所述目标唇语识别模型对目标待识别视频进行识别，所述目标唇语识别模型为基于神经网络模型训练得到的，所述目标待识别视频为与所述待识别语音对应的视频。

39、本申请在一较佳示例中可以进一步配置为，所述特征词语包括：发音型词语和描述型词语，所述方言类别确定模块在执行基于所述语句结构、所述特征词语和多个预设特征词语，确定与所述清晰语音对应的方言类别时，用于:

40、基于预设的语句结构和所属地的对应关系和所述语句结构，确定所述语句结构对应的第一地区，所述第一地区表征省级地区；

41、获取第一地区对应的多个第二地区；

42、基于所述发音型词语、所述描述型词语和所有所述第二地区各自对应的多个预设特征词语进行匹配，确定目标第二地区；

43、确定所述目标第二地区对应的目标方言，并将所述目标方言确定为与所述清晰语音对应的方言类别。

44、第三方面，本申请提供一种电子设备，采用如下的技术方案：

...

【技术保护点】

1.一种基于唇语识别的语音确定方法，其特征在于，包括：

2.根据权利要求1所述的基于唇语识别的语音确定方法，其特征在于，所述特征词语包括：发音型词语和描述型词语，所述基于所述语句结构、所述特征词语和多个预设特征词语，确定与所述清晰语音对应的方言类别，包括：

3.根据权利要求2所述的基于唇语识别的语音确定方法，其特征在于，所述发音型词语包括：第一字母型词语和第一声调型词语，

4.根据权利要求3所述的基于唇语识别的语音确定方法，其特征在于，所述基于所述第一字母型词语、所述第二字母型词语、所述第一声调型词语和所述第二声调型词语，从所有所述初始第二地区中确定若干目标第二地区，包括：

5.根据权利要求1所述的基于唇语识别的语音确定方法，其特征在于，所述目标唇语识别模型的训练过程，包括：

6.根据权利要求1所述的基于唇语识别的语音确定方法，其特征在于，所述基于所述目标唇语识别模型对目标待识别视频进行识别之前，还包括：

7.一种基于唇语识别的语音确定装置，其特征在于，包括：

8.根据权利要求7所述的基于唇语识别

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令所述计算机执行权利要求1～7任一项所述的基于唇语识别的语音确定方法。

...

【技术特征摘要】

1.一种基于唇语识别的语音确定方法，其特征在于，包括：

3.根据权利要求2所述的基于唇语识别的语音确定方法，其特征在于，所述发音型词语包括：第一字母型词语和第一声调型词语，

5.根据权利要求1所述的基于唇语识别的语音确定方法，其特征在于，所述目标唇语识...

【专利技术属性】
技术研发人员：邓永春，蒋志平，
申请(专利权)人：杭州威灿科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人