System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 语音识别标签数据生成方法、装置及相关设备制造方法及图纸_技高网

语音识别标签数据生成方法、装置及相关设备制造方法及图纸

技术编号:40607716 阅读:11 留言:0更新日期:2024-03-12 22:14
本申请提供一种语音识别标签数据生成方法、装置及相关设备,该方法包括对预先获取的音频业务数据进行解码,得到解码数据,音频业务数据为无监督的电话信道的音频数据,解码数据包括多个词级别识别结果和目标音频数据;获取多个词级别识别结果的单位长度混淆度;获取多个词级别识别结果中各词级别识别结果的多元语言概率;判断单位长度混淆度,以及各词级别识别结果的多元语言概率是否符合数据保留要求;若是,则保留目标音频数据,并基于多个词级别识别结果,确定目标音频数据的目标标签数据。本申请实施例,可以有效地解决业务场景训练数据量级不足的问题,同时确保了噪音小,质量高的数据进行保留,有效提高数据的质量。

【技术实现步骤摘要】

本申请涉及语音识别,具体涉及一种语音识别标签数据生成方法、装置及相关设备


技术介绍

1、语音识别当前主流的技术基于深度神经网络(deep neural network,dnn),深度神经网络因其出色的分类能力和非线性关系的表达能力,被广泛的应用在语音识别声学和语言模型的建模过程中,极大的提升了语音识别的性能。

2、传统的hybrid语音识别建模包含声学和语言两部分,其中声学模型主要针对音频发音特征进行学习,语言模型针对语法规则进行学习。不论是声学模型还是语言模型,模型的性能表现都需要依赖于大量的标注训练数据来支撑。基于特定业务场景,比如电话客服,标注数据的来源一般有开源库、第三方公司成品库,针对业务数据购买第三方标注服务等方式。开源库和第三方公司成品库无论是在话术覆盖领域还是采集设备、信道环境与实际业务场景的音频特性均相距较远,若需要在业务数据场景下达到较好的性能,一般需要购买第三方标注服务以获得有标签的业务数据,这样需要消耗大量的人力和时间成本,并且在数量量级上远远不够。

3、因此,如何降低获取大量的高质量的有标签的业务数据的成本,是当前语音识别
亟需解决的技术问题。


技术实现思路

1、本申请提供一种语音识别标签数据生成方法、装置及相关装置,旨在解决如何降低获取大量的高质量的有标签的业务数据的成本的技术问题。

2、一方面,本申请提供一种语音识别标签数据生成方法,所述方法包括:

3、对预先获取的音频业务数据进行解码,得到解码数据,所述音频业务数据为无监督的电话信道的音频数据,所述解码数据包括多个词级别识别结果和目标音频数据,所述词级别识别结果为分词形式的文本数据;

4、获取所述多个词级别识别结果的单位长度混淆度;

5、获取所述多个词级别识别结果中各词级别识别结果的多元语言概率;

6、判断所述单位长度混淆度,以及所述各词级别识别结果的多元语言概率是否符合数据保留要求;

7、若是,则保留所述目标音频数据,并基于所述多个词级别识别结果,确定所述目标音频数据的目标标签数据。

8、在本申请一种可能的实现方式中,所述判断所述单位长度混淆度,以及所述各词级别识别结果的多元语言概率是否符合数据保留要求,包括:

9、将所述单位长度混淆度与预设的混淆度阈值进行比较,得到第一比较结果;

10、将所述各词级别识别结果的多元语言概率与预设的多元语言概率阈值进行比较,得到第二比较结果;

11、统计所述第二比较结果中所述各词级别识别结果的多元语言概率大于所述预设的多元语言概率阈值的占比参数;

12、判断所述第一比较结果是否为所述单位长度混淆度小于预设的混淆度阈值,且所述占比参数是否大于预设占比阈值;

13、若是,则所述单位长度混淆度,以及所述各词级别识别结果的多元语言概率符合所述数据保留要求;

14、若否,则所述单位长度混淆度,以及所述各词级别识别结果的多元语言概率不符合所述数据保留要求。

15、在本申请一种可能的实现方式中,所述获取所述多个词级别识别结果的单位长度混淆度,包括:

16、基于预设的语言模型获取所述解码数据的混淆度;

17、基于所述解码数据的混淆度和所述解码数据的句子长度,确定所述解码数据的单位长度混淆度。

18、在本申请一种可能的实现方式中,所述解码数据还包括各词级别识别结果对应的时间戳以及置信度,所述对预先获取的音频业务数据进行解码,得到解码数据,包括:

19、对预先获取的音频业务数据进行解码,得到多个词级别识别结果和第一音频数据;

20、基于所述置信度,对所述第一音频数据进行过滤处理,得到过滤后的第二音频数据;

21、基于所述时间戳,对所述第二音频数据进行过滤处理,得到过滤后的目标音频数据。

22、在本申请一种可能的实现方式中,所述基于所述多个词级别识别结果,确定所述目标音频数据的目标标签数据,包括:

23、将所述多个词级别识别结果作为预标注文本,并基于所述预标注文本中各词级别识别结果对应的多元语言概率对所述预标注文本进行校正处理,得到所述目标音频数据的目标标签数据。

24、在本申请一种可能的实现方式中,所述对预先获取的音频业务数据进行解码,得到多个词级别识别结果和第一音频数据,包括:

25、基于预设的声学模型和语言模型对预先获取的音频业务数据进行解码,得到多个词级别识别结果和第一音频数据,其中,所述声学模型是基于神经网络的声学模型,所述语言模型是基于统计概率的语言模型。

26、在本申请一种可能的实现方式中,在基于预设的声学模型和语言模型对预先获取的音频业务数据进行解码,得到多个词级别识别结果和第一音频数据之前,所述方法还包括:

27、基于已有的开源数据和标注业务数据对初始声学模型进行训练,得到所述预设的声学模型;

28、基于已有的开源数据和标注业务数据对应的文本数据对初始语音模型进行训练,得到预设的语言模型。

29、另一方面,本申请提供一种语音识别标签数据生成装置,所述装置包括:

30、第一解码单元,用于对预先获取的音频业务数据进行解码,得到解码数据,所述音频业务数据为无监督的电话信道的音频数据,所述解码数据包括多个词级别识别结果和目标音频数据,所述词级别识别结果为分词形式的文本数据;

31、第一获取单元,用于获取所述多个词级别识别结果的单位长度混淆度;

32、第二获取单元,用于获取所述多个词级别识别结果中各词级别识别结果的多元语言概率;

33、第一判断单元,用于判断所述单位长度混淆度,以及所述各词级别识别结果的多元语言概率是否符合数据保留要求;

34、第一确定单元,用于若是,则保留所述目标音频数据,并基于所述多个词级别识别结果,确定所述目标音频数据的目标标签数据。

35、在本申请一种可能的实现方式中,所述第一判断单元,具体用于:

36、将所述单位长度混淆度与预设的混淆度阈值进行比较,得到第一比较结果;

37、将所述各词级别识别结果的多元语言概率与预设的多元语言概率阈值进行比较,得到第二比较结果;

38、统计所述第二比较结果中所述各词级别识别结果的多元语言概率大于所述预设的多元语言概率阈值的占比参数;

39、判断所述第一比较结果是否为所述单位长度混淆度小于预设的混淆度阈值,且所述占比参数是否大于预设占比阈值;

40、若是,则所述单位长度混淆度,以及所述各词级别识别结果的多元语言概率符合所述数据保留要求;

41、若否,则所述单位长度混淆度,以及所述各词级别识别结果的多元语言概率不符合所述数据保留要求。

42、在本申请一种可能的实现方式中,所述获取所述多个词级别识别结果的单位长度混淆度,具体用于:

<本文档来自技高网...

【技术保护点】

1.一种语音识别标签数据生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的语音识别标签数据生成方法,其特征在于,所述判断所述单位长度混淆度,以及所述各词级别识别结果的多元语言概率是否符合数据保留要求,包括:

3.根据权利要求1所述的语音识别标签数据生成方法,其特征在于,所述获取所述多个词级别识别结果的单位长度混淆度,包括:

4.根据权利要求1所述的语音识别标签数据生成方法,其特征在于,所述基于所述多个词级别识别结果,确定所述目标音频数据的目标标签数据,包括:

5.根据权利要求1所述的语音识别标签数据生成方法,其特征在于,所述解码数据还包括各词级别识别结果对应的时间戳以及置信度,所述对预先获取的音频业务数据进行解码,得到解码数据,包括:

6.根据权利要求5所述的语音识别标签数据生成方法,其特征在于,所述对预先获取的音频业务数据进行解码,得到多个词级别识别结果和第一音频数据,包括:

7.根据权利要求6所述的语音识别标签数据生成方法,其特征在于,在基于预设的声学模型和语言模型对预先获取的音频业务数据进行解码,得到多个词级别识别结果和第一音频数据之前,所述方法还包括:

8.一种语音识别标签数据生成装置,其特征在于,所述装置包括:

9.一种计算机设备,其特征在于,所述计算机设备包括:

10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至7任一项所述的语音识别标签数据生成方法中的步骤。

...

【技术特征摘要】

1.一种语音识别标签数据生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的语音识别标签数据生成方法,其特征在于,所述判断所述单位长度混淆度,以及所述各词级别识别结果的多元语言概率是否符合数据保留要求,包括:

3.根据权利要求1所述的语音识别标签数据生成方法,其特征在于,所述获取所述多个词级别识别结果的单位长度混淆度,包括:

4.根据权利要求1所述的语音识别标签数据生成方法,其特征在于,所述基于所述多个词级别识别结果,确定所述目标音频数据的目标标签数据,包括:

5.根据权利要求1所述的语音识别标签数据生成方法,其特征在于,所述解码数据还包括各词级别识别结果对应的时间戳以及置信度,所述对预先获取的音频业务数据进行解码,得到解...

【专利技术属性】
技术研发人员:齐欣
申请(专利权)人:顺丰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1