语音标注方法、装置及设备制造方法及图纸

技术编号：19861405 阅读：46 留言：0更新日期：2018-12-22 12:35

本说明书实施例提供一种涉及语音标注方法、装置及设备，通过获取原始文本信息以及与原始文本信息对应的语音数据，对语音数据进行断句切分，可以获得多段带语音的语音句子数据，然后对语音句子数据进行语音识别，并将识别获得的识别句子信息与原始文本信息中的原始语句信息进行相似度比较，进而根据比较结果利用原始语句信息与语音句子数据构成文本语音对，实现自动化标注处理，提高获得文本语音对的效率。

全部详细技术资料下载

【技术实现步骤摘要】
语音标注方法、装置及设备
本说明书涉及数据处理领域，尤其涉及语音标注方法、装置及设备。
技术介绍
不管是语音识别场景，还是语音合成场景，为了训练良好的声学模型，都需要依赖大量的语音数据以及与语音数据对应的正确的文本信息，语音数据以及与语音数据对应的正确的文本信息，简称为文本语音对。确定语音数据以及与语音数据对应的正确的文本信息的过程，可以称为语音标注，正确的文本信息可以称为语音数据的标注数据。相关技术中，常采用人工听写的方式将语音数据转录为文本信息，再通过人工判断，结合语义语境等因素，确定与语音数据对应的正确的文本信息，获得文本语音对。然而，这种语音标注的方式依赖于人力劳动，效率低、且人力成本高。
技术实现思路
为克服相关技术中存在的问题，本说明书提供了语音标注方法、装置及设备。根据本说明书实施例的第一方面，提供一种语音标注方法，所述方法包括：获取原始文本信息和语音数据，所述语音数据包括：朗读原始文本信息而获得的录音数据；对所述语音数据进行断句切分，获得至少一段语音句子数据；将对所述语音句子数据进行语音识别获得的识别句子信息，与原始文本信息中的原始语句信息进行相似度比...

【技术保护点】
1.一种语音标注方法，所述方法包括：获取原始文本信息和语音数据，所述语音数据包括：朗读原始文本信息而获得的录音数据；对所述语音数据进行断句切分，获得至少一段语音句子数据；将对所述语音句子数据进行语音识别获得的识别句子信息，与原始文本信息中的原始语句信息进行相似度比较，根据比较结果利用原始语句信息与语音句子数据构成文本语音对。

【技术特征摘要】
1.一种语音标注方法，所述方法包括：获取原始文本信息和语音数据，所述语音数据包括：朗读原始文本信息而获得的录音数据；对所述语音数据进行断句切分，获得至少一段语音句子数据；将对所述语音句子数据进行语音识别获得的识别句子信息，与原始文本信息中的原始语句信息进行相似度比较，根据比较结果利用原始语句信息与语音句子数据构成文本语音对。2.根据权利要求1所述的方法，所述对所述语音数据进行断句切分，获得至少一段语音句子数据，包括：根据语音数据中每帧的短时能量与预设能量阈值的关系，确定语音数据中连续语音的起点位置和终点位置；根据所确定的起始位置和终点位置、以及终点位置与起始位置间的间隔，对所述语音数据进行断句切分，获得至少一段语音句子数据，语音句子数据的帧数大于或等于预设帧数阈值。3.根据权利要求1所述的方法，识别句子信息与原始语句信息的相似度比较包括：识别句子信息的拼音与所述原始语句信息的拼音的比较，所述拼音为带声调的拼音。4.根据权利要求3所述的方法，所述将对所述语音句子数据进行语音识别获得的识别句子信息，与原始文本信息中的原始语句信息进行相似度比较，包括：将所述原始文本信息按标点符号进行断句划分和排序，获得原始文本序列；对所述语音句子数据进行语音识别和排序，获得识别文本序列；分别将所述原始文本序列和识别文本序列转换为带声调的拼音，获得原始拼音序列和识别拼音序列，原始拼音序列包括原始拼音句子，识别拼音序列包括识别拼音句子；针对原始拼音序列内每段原始拼音句子，将当前序号的原始拼音句子、与识别拼音序列中当前序号及其前后偏移指定序号内的识别拼音句子进行相似度比较，获得比较结果。5.根据权利要求4所述的方法，所述根据比较结果利用原始语句信息与语音句子数据构成文本语音对，包括：根据比较结果和预设筛选条件，从当前序号及其前后偏移指定序号内的识别拼音句子中筛选识别拼音句子；利用筛选获得的识别拼音句子所对应的识别句子信息，对所述原始拼音句子所对应的原始语句信息进行校验，所述校验包括删除漏读的字符或添加多读的字符；将校验获得的文本信息作为所述识别句子信息对应的语音句子数据的标注数据，构成文本语音对。6.根据权利要求5所述的方法，所述预设筛选条件包括以下一种条件：若比较结果中最大相似度大于预设相似度阈值、且存在一个最大相似度时，选取最大相似度所对应识别拼音句子；若比较结果中最大相似度大于预设相似度阈值、且存在至少两个最大相似度时，选取最大相似度所对应识别拼音句子中序号最大的识别拼音句子；若比较结果中最大相似度和次大相似度均大于预设相似度阈值，选取最大相似度和次大相似度所对应识别拼音句子中序号最大的识别拼音句子。7.一种语音标注装置，所述装置包括：信息获取模块，用于获取原始文本信息和语音数据，所述语音数据包括：朗读原始文本信息而获得的录音数据；数据切分模块，用于对所述语音数据...

【专利技术属性】
技术研发人员：官砚楚，杨磊，陈力，韩喆，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人