语音数据处理方法、装置、介质和计算设备制造方法及图纸

技术编号:24614901 阅读:41 留言:0更新日期:2020-06-24 01:53
本发明专利技术的实施方式提供了一种语音数据处理方法,包括:获取语音片段和针对该语音片段的初始文本,并基于该初始文本,构建语音片段的偏置语言模型。然后,基于所构建的偏置语言模型,确定语音片段的多个候选词汇序列。将多个候选词汇序列分别与语音片段的声学特征进行强制对齐操作,以从该多个候选词汇序列中确定优选词汇序列。接着,基于初始文本和优选词汇序列之间的差异,确定语音片段的标注文本。本发明专利技术的实施方式还提供了一种语音数据处理装置、介质和计算设备。

Speech data processing methods, devices, media and computing equipment

【技术实现步骤摘要】
语音数据处理方法、装置、介质和计算设备
本专利技术的实施方式涉及计算机
,更具体地,本专利技术的实施方式涉及语音数据处理方法、装置、介质和计算设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。在语音识别
,语音识别模型系统的训练和调优需要海量语音标注数据的支撑,语音标注数据包括语音数据及其相应的标注文本。语音标注数据的数量及其标注文本的准确性可以很大程度地影响语音识别模型系统的训练效率和性能。传统获取语音标注数据的技术方案存在工作量大、错误率高、耗时较长、对标注者专业技能要求高等问题。因此,如何快速获取到大量的语音标注数据并保证训练数据中标注文本的准确性,是当前亟需解决的问题。
技术实现思路
在本上下文中,本专利技术的实施方式期望提供一种语音数据处理方法、装置、介质和计算设备。在本专利技术实施方式的第一方面中,提供了一种语音数据处理方法,包括:获取语音片段和针对该语音片段的初始文本,并基于该初始文本,构建语音片段的偏置语言模型。然本文档来自技高网...

【技术保护点】
1.一种语音数据处理方法,包括:/n获取语音片段和针对所述语音片段的初始文本;/n基于所述初始文本,构建所述语音片段的偏置语言模型;/n基于所述偏置语言模型,确定所述语音片段的多个候选词汇序列;/n将所述多个候选词汇序列分别与所述语音片段的声学特征进行强制对齐操作,以从所述多个候选词汇序列中确定优选词汇序列;以及/n基于所述初始文本和所述优选词汇序列之间的差异,确定所述语音片段的标注文本。/n

【技术特征摘要】
1.一种语音数据处理方法,包括:
获取语音片段和针对所述语音片段的初始文本;
基于所述初始文本,构建所述语音片段的偏置语言模型;
基于所述偏置语言模型,确定所述语音片段的多个候选词汇序列;
将所述多个候选词汇序列分别与所述语音片段的声学特征进行强制对齐操作,以从所述多个候选词汇序列中确定优选词汇序列;以及
基于所述初始文本和所述优选词汇序列之间的差异,确定所述语音片段的标注文本。


2.根据权利要求1所述的方法,其中,所述获取语音片段和针对所述语音片段的初始文本包括:
从互联网已有数据中获取语音数据和针对所述语音数据的文本数据;
对所述语音数据进行端点检测并切分,以得到多个语音片段;以及
对于所述多个语音片段中的任一语音片段,从所述文本数据中确定针对所述任一语音片段的初始文本,所述初始文本包括:按照预定顺序排列的多个词汇。


3.根据权利要求2所述的方法,还包括:
在所述基于所述初始文本,构建所述语音片段的偏置语言模型之前,对于所述多个词汇中的任一词汇,确定所述任一词汇是否存在易混淆词汇;以及
如果是,将所述任一词汇的易混淆词汇插入所述初始文本,所述任一词汇的易混淆词汇与所述任一词汇在所述初始文本中的排列位置相同。


4.根据权利要求2所述的方法,其中,所述基于所述初始文本,构建所述语音片段的偏置语言模型包括:
对于所述多个词汇中的任一词汇,计算所述任一词汇的偏置1~N元语法模型概率,其中N为大于1的整数;
基于所述多个词汇各自的偏置1~N元语法模型概率,确定所述多个词汇中任意两个词汇之间的状态转移概率;以及
基于所述任意两个词汇之间的状态转移概率,构建所述偏置语言模型。


5.根据权利要求4所述的方法,其中,所述计算所述任一词汇的偏置1~N元语法模型概率包括:
计算所述任一词汇的词频;
基于所述任一词汇的词频,计算所述任一词汇在所述初始文本中的修正1~N元语法模型概率;以及
对所述修正1~N元语法模型概率进行平...

【专利技术属性】
技术研发人员:杨震刘东李响
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1