语音识别校正方法及其相应的装置、设备、介质制造方法及图纸

技术编号：30442340 阅读：22 留言：0更新日期：2021-10-24 18:31

本申请公开一种语音识别校正方法及其相应的装置、设备、介质，该方法包括：获取选定的声学模型从原始音频数据中识别出的初步音频文本及置信度数据；将初步音频文本中置信度低于预设阈值的字词替换为空洞标记，获得标记音频文本；根据与原始音频数据的原始音频文本对所述标记音频文本实施文本对齐，使标记音频文本中的空洞标记根据原始音频文本获得对应补全，以获得订正音频文本；将所述原始音频数据标记为训练样本，将所述订正音频文本标记为该原始音频数据的监督标签，存储于声学模型训练所需的样本库中。本申请能够对关联于相同语音内容的音频文本和音频数据所构成的脏数据进行高效地清洗，从而制备出声学模型训练所需的训练数据。训练数据。训练数据。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别校正方法及其相应的装置、设备、介质

[0001]本申请实施例涉及语音识别
，尤其涉及一种语音识别校正方法及其相应的装置、设备、介质。

技术介绍

[0002]海量的训练数据恰恰是优秀的声学模型必不可少的素材，目前主流生产ASR(Automatic Speech Recognition，自动语音识别)训练数据的方法常通过直接采样来获取：借助人工准确阅读某段文字或对话，由此获得朗读所形成的音频数据及被阅读的音频文本，所述音频文件可以作为训练样本，而其音频文本可作为监督标签，故可产出高质量的训练语料，能够直接用于训练的数据。显而易见的，这种方法，采集效率非常低下，数据获取成本非常高昂。
[0003]一种可行的思路是利用音频文字对齐技术来生产声学模型训练所需的音频数据，让音频文字对齐技术在自动语音识别领域中扮演数据生产的角色，具体而言，借助音频文字对齐技术，利用与原始音频数据相对应的原始音频文本，将原始音频数据与从该原始音频数据中识别出来的音频文本在句子粒度下实现时序上的对齐，对齐结果实现了对语音识别出来的音频文本的校正，校正后的音频文本与所述的原始音频数据，便可用于训练ASR声学模型。
[0004]至于所述的原始音频数据及其原始音频文本，可以借助更丰富的手段进行采集，例如，互联网中存在着大量的内容互相对应的音频数据与音频文本，例如电影文件及其字幕文件之间便存在内容上的对应关系，有声书的音频文件与其文本文件之间也存在着内容上的对应关系，甚至一些短视频也同理存在着其视频文件及其中的字幕之间的对应关系...

【技术保护点】

【技术特征摘要】
1.一种语音识别校正方法，其特征在于，包括如下步骤：获取选定的声学模型从原始音频数据中识别出的初步音频文本及表征初步音频文本内各字词识别准确度的置信度数据；将初步音频文本中置信度低于预设阈值的字词替换为空洞标记，获得标记音频文本；根据与原始音频数据的语音内容相匹配的原始音频文本对所述标记音频文本实施文本对齐，使标记音频文本中的空洞标记根据原始音频文本获得对应补全，以获得订正音频文本；将所述原始音频数据标记为训练样本，将所述订正音频文本标记为该原始音频数据的监督标签，存储于声学模型训练所需的样本库中。2.根据权利要求1所述的语音识别校正方法，其特征在于，包括如下前置步骤：调用候选声学模型对多个原始音频数据实施语音识别，识别出相应的多个初步音频文本及表征每一初步音频文本内各字词提取准确度的置信度数据；计算每个初步音频文本中置信度低于预设阈值的字词数量与该初步音频文本的字词总量的比率，作为空洞率；统计所有初步音频文本的空洞率的均值获得该候选声学模型的空洞评分；将空洞评分满足预设条件的候选声学模型确定为选定的声学模型。3.根据权利要求1所述的语音识别校正方法，其特征在于，根据与原始音频数据的语音内容相匹配的原始音频文本对所述标记音频文本实施文本对齐，使标记音频文本中的空洞标记根据原始音频文本获得对应补全，以获得订正音频文本，包括如下步骤：根据与原始音频数据的语音内容相匹配的原始音频文本的段落信息对所述标记音频文本实施段落对齐；根据所述原始音频文本的句法信息对所述标记音频文本实施句子对齐；根据原始音频文本与标记音频文本之间的句子对齐关系，利用所述原始音频文本对应替换补全所述标记音频文本内每个句子中存在的空洞标记；将完成空洞标记补全的标记音频文本确定为所述的订正音频文本。4.根据权利要求3所述的语音识别校正方法，其特征在于，根据原始音频文本与标记音频文本之间的句子对齐关系，利用所述原始音频文本对应替换补全所述标记音频文本内每个句子中存在的空洞标记，包括如下步骤：获取具有对齐关系的句子在原始音频文本中的原始表达及其在标记音频文本中的过程表达；将所述原始表达与所述过程表达表示为两个序列，查找出两个序列之间包含空洞标记与字词的对应关系在内的最长公共子序列；将所述过程表达中与最长公共子序列相对应的字词全文替换为所述原始表达中与最长公共子序列相对应的字词，以实现利用原始音频文本对应替换补全标记音频文内每个句子中存在的空洞标记。5.根据权利要求4所述的语音识别校...

【专利技术属性】
技术研发人员：姜博怀，
申请(专利权)人：广州华多网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人