一种端到端中文语音文本纠错方法、装置和存储介质制造方法及图纸

技术编号：33334509 阅读：15 留言：0更新日期：2022-05-08 09:16

本发明专利技术提出了一种端到端中文语音文本纠错方法、装置和存储介质，该方法包括如下步骤：基于语音识别数据集构建语音纠错数据集，语音纠错数据集包括待纠错样本和正确样本；获取纯文本数据，并对纯文本数据进行预处理；采用预处理后的纯文本数据进行模型训练，获得融入语音信息的预训练语言模型；从待纠错样本的句子中提取拼音和字，输入至融入语音信息的预训练语言模型，获得语义序列表征；采用语义序列表征进行模型训练，获得端到端语音文本纠错模型；将待纠错文本输入至端到端语音文本纠错模型中，获得纠错后文本。本发明专利技术实现了语音信息的融入，语义和拼音信息的双重编码，以及针对语音文本的实时纠错，同时提升了针对语音文本的纠错效果。的纠错效果。的纠错效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种端到端中文语音文本纠错方法、装置和存储介质

[0001]本专利技术涉及自然语言处理
，具体而言，涉及一种端到端中文语音文本纠错方法、装置和存储介质。

技术介绍

[0002]中文语音文本纠错是对语音转换后的中文文本进行错误检测和纠正。当前语音转文本容易出现记录噪音或者识别错误等情况，将极大地影响意图识别、文本检索等任务的效果。因此，中文语音文本纠错一直受到业界的广泛关注。
[0003]语音文本纠错和普通错别字纠错有较大区别，普通错别字纠错针对的问题是字音错误和字形错误，而语音纠错主要针对的仅是字音错误。因此相比较普通错别字纠错，语音文本纠错需要更聚焦于字音的错误建模。
[0004]传统的语音文本纠错方法首先检测拼写错误的字符，并使用统计语言模型生成候选集，然后通过计算文本困惑度或设定规则等方法过滤错误的候选字符。但是由于统计语言模型的语义表征效果限制，导致需要通过大量的规则来进行候选字符过滤，该方法不仅耗时耗力且泛化性不高。

技术实现思路

[0005]本专利技术的目的在于提供一种端到端中文语音文本纠错方法、装置和存储介质，解决了现有技术中传统的语音文本纠错方法不仅耗时耗力且泛化性不高的问题。
[0006]为解决上述技术问题，本专利技术采用的技术方案是：一种端到端中文语音文本纠错方法，包括如下步骤：基于语音识别数据集构建语音纠错数据集，所述语音纠错数据集包括待纠错样本和正确样本；获取纯文本数据，并对所述纯文本数据进行预处理；采用预处理后的纯文本数据进行模型训练，获得融入语...

【技术保护点】

【技术特征摘要】
1.一种端到端中文语音文本纠错方法，其特征在于，包括如下步骤：基于语音识别数据集构建语音纠错数据集，所述语音纠错数据集包括待纠错样本和正确样本；获取纯文本数据，并对所述纯文本数据进行预处理；采用预处理后的纯文本数据进行模型训练，获得融入语音信息的预训练语言模型；从所述待纠错样本的句子中提取拼音和字，输入至所述融入语音信息的预训练语言模型，获得语义序列表征；采用所述语义序列表征进行模型训练，获得端到端语音文本纠错模型；将待纠错文本输入至所述端到端语音文本纠错模型中，获得纠错后文本。2.根据权利要求1所述的端到端中文语音文本纠错方法，其特征在于，所述基于语音识别数据集构建语音纠错数据集，包括：获取语音识别数据集，所述语音识别数据集包括音频数据及与其对应的参考文本；基于语音转文本工具将所述音频数据转化为中文文本；比对所述中文文本及其对应的参考文本，判断是否一致；若一致，则通过拼音替换规则对所述中文文本进行随机替换，生成待纠错样本，并将参考文本作为正确样本；若不一致，则将所述中文文本作为待纠错样本，将参考文本作为正确样本；将所述待纠错样本和正确样本作为样本对加入到语音纠错数据集中。3.根据权利要求2所述的端到端中文语音文本纠错方法，其特征在于，所述拼音替换规则，包括：替换拼音完全相同的字；替换鼻音、平卷舌的字；替换拼音编辑距离为1的字。4.根据权利要求1所述的端到端中文语音文本纠错方法，其特征在于，对所述纯文本数据进行预处理，包括：采用多种字符替换策略对所述纯文本数据的句子进行替换，将替换后的错误文本作为待纠错样本，替换前的纯文本作为正确样本；所述字符替换策略包括字音混淆词替换、混淆字符拼音替换、随机替换、原词不变。5.根据权利要求4所述的端到端中文语音文本纠错方法，其特征在于，所述融入语音信息的预训练语言模型的训练过程，包括：通过词表将所述待纠错样本编码为独热序列向量；使用词嵌入将所述独热序列向量映射为固定长度的字序列向量；将所述字序列向量输入至Transformer编码模块中，输出待纠错样本的语义编码；根据所述待纠错样本的语义编码，分别进行错误字符检测任务和错误字符纠正任务，获得字符检测损失和字符纠正损失；根据所述字符检测损失和字符纠正损失计算两者损失之和，即模型损失，根...

【专利技术属性】
技术研发人员：杜振东，
申请(专利权)人：南京云问网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人