一种端到端中文语音文本纠错方法、装置和存储介质制造方法及图纸

技术编号:33334509 阅读:15 留言:0更新日期:2022-05-08 09:16
本发明专利技术提出了一种端到端中文语音文本纠错方法、装置和存储介质,该方法包括如下步骤:基于语音识别数据集构建语音纠错数据集,语音纠错数据集包括待纠错样本和正确样本;获取纯文本数据,并对纯文本数据进行预处理;采用预处理后的纯文本数据进行模型训练,获得融入语音信息的预训练语言模型;从待纠错样本的句子中提取拼音和字,输入至融入语音信息的预训练语言模型,获得语义序列表征;采用语义序列表征进行模型训练,获得端到端语音文本纠错模型;将待纠错文本输入至端到端语音文本纠错模型中,获得纠错后文本。本发明专利技术实现了语音信息的融入,语义和拼音信息的双重编码,以及针对语音文本的实时纠错,同时提升了针对语音文本的纠错效果。的纠错效果。的纠错效果。

【技术实现步骤摘要】
一种端到端中文语音文本纠错方法、装置和存储介质


[0001]本专利技术涉及自然语言处理
,具体而言,涉及一种端到端中文语音文本纠错方法、装置和存储介质。

技术介绍

[0002]中文语音文本纠错是对语音转换后的中文文本进行错误检测和纠正。当前语音转文本容易出现记录噪音或者识别错误等情况,将极大地影响意图识别、文本检索等任务的效果。因此,中文语音文本纠错一直受到业界的广泛关注。
[0003]语音文本纠错和普通错别字纠错有较大区别,普通错别字纠错针对的问题是字音错误和字形错误,而语音纠错主要针对的仅是字音错误。因此相比较普通错别字纠错,语音文本纠错需要更聚焦于字音的错误建模。
[0004]传统的语音文本纠错方法首先检测拼写错误的字符,并使用统计语言模型生成候选集,然后通过计算文本困惑度或设定规则等方法过滤错误的候选字符。但是由于统计语言模型的语义表征效果限制,导致需要通过大量的规则来进行候选字符过滤,该方法不仅耗时耗力且泛化性不高。

技术实现思路

[0005]本专利技术的目的在于提供一种端到端中文语音文本纠错方法、装置和存储介质,解决了现有技术中传统的语音文本纠错方法不仅耗时耗力且泛化性不高的问题。
[0006]为解决上述技术问题,本专利技术采用的技术方案是:一种端到端中文语音文本纠错方法,包括如下步骤:基于语音识别数据集构建语音纠错数据集,所述语音纠错数据集包括待纠错样本和正确样本;获取纯文本数据,并对所述纯文本数据进行预处理;采用预处理后的纯文本数据进行模型训练,获得融入语音信息的预训练语言模型;从所述待纠错样本的句子中提取拼音和字,输入至所述融入语音信息的预训练语言模型,获得语义序列表征;采用所述语义序列表征进行模型训练,获得端到端语音文本纠错模型;将待纠错文本输入至所述端到端语音文本纠错模型中,获得纠错后文本。
[0007]作为优选方案,所述基于语音识别数据集构建语音纠错数据集,包括:获取语音识别数据集,所述语音识别数据集包括音频数据及与其对应的参考文本;基于语音转文本工具将所述音频数据转化为中文文本;比对所述中文文本及其对应的参考文本,判断是否一致;若一致,则通过拼音替换规则对所述中文文本进行随机替换,生成待纠错样本,并将参考文本作为正确样本;若不一致,则将所述中文文本作为待纠错样本,将参考文本作为正确样本;将所述待纠错样本和正确样本作为样本对加入到语音纠错数据集中。
[0008]作为优选方案,所述拼音替换规则,包括:替换拼音完全相同的字;替换鼻音、平卷舌的字;替换拼音编辑距离为1的字。
[0009]作为优选方案,对所述纯文本数据进行预处理,包括:采用多种字符替换策略对所述纯文本数据的句子进行替换,将替换后的错误文本作为待纠错样本,替换前的纯文本作
为正确样本;所述字符替换策略包括字音混淆词替换、混淆字符拼音替换、随机替换、原词不变。
[0010]作为优选方案,所述融入语音信息的预训练语言模型的训练过程,包括:通过词表将所述待纠错样本编码为独热序列向量;使用词嵌入将所述独热序列向量映射为固定长度的字序列向量;将所述字序列向量输入至Transformer编码模块中,输出待纠错样本的语义编码;根据所述待纠错样本的语义编码,分别进行错误字符检测任务和错误字符纠正任务,获得字符检测损失和字符纠正损失;根据所述字符检测损失和字符纠正损失计算两者损失之和,即模型损失,根据所述模型损失进行模型梯度更新。
[0011]作为优选方案,所述语义序列表征记为,则上式中,表示融入语音信息的预训练语言模型的函数,表示第个句子的字序列向量,表示第个句子的拼音序列向量。
[0012]作为优选方案,所述端到端语音文本纠错模型包括检错网络和纠错网络,则所述端到端语音文本纠错模型的训练过程,包括:在检错网络中,将所述语义序列表征通过全连接层进行映射,获得检错网络的隐层表征,然后通过Softmax函数得到检错的概率标签,用于判断所述待纠错样本的句子中每一个字是否为错别字;在纠错网络中,将所述语义表征通过全连接层进行映射,获得纠错网络的隐层表征,然后通过Softmax函数得到每个字纠错的词表概率标签,用于将句子中错误的字修改为正确的字;根据所述检错的概率标签和纠错的词表概率标签,判断是否进行文本纠错。
[0013]作为优选方案,所述检错网络的隐层表征记为,纠错网络的隐层表征记为,则:上式中, 表示检错的概率标签, 表示每个字纠错的词表概率标签,表示激活函数,表示Softmax分类器函数,和分别为参数矩阵和参数向量,为待纠错样本的语义序列表征。
[0014]本专利技术还公开了一种端到端中文语音文本纠错装置,包括:数据集构建模块,用于基于语音识别数据集构建语音纠错数据集,所述语音纠错数据集包括待纠错样本和正确样本;预处理模块,用于获取纯文本数据,并对所述纯文本数据进行预处理;第一训练模块,用于采用预处理后的纯文本数据进行模型训练,获得融入语音信息的预训练语言模型;序列表征模块,用于从所述待纠错样本的句子中提取拼音和词语,输入至所述融入语音信息的预训练语言模型,获得语义序列表征;第二训练模块,用于采用所述语义序列表征进行模型
训练,获得端到端语音文本纠错模型;文本纠错模块,用于将待纠错文本输入至所述端到端语音文本纠错模型中,获得纠错后文本。
[0015]本专利技术还公开了一种存储介质,其上存储有计算机程序,所述存储介质中存储有至少一可执行指令,所述执行指令使处理器执行如上任一项所述的端到端中文语音文本纠错方法对应的操作。
[0016]与现有技术相比,本专利技术的有益效果包括:在训练语言模型时,通过设置拼音替换规则,实现语音信息的融入,提升针对语音文本的纠错效果。在训练端到端语音纠错模型时,将字符和拼音作为输入到语言模型中,实现语义和拼音信息的双重编码。并且构建了检测

纠错网络,实现针对语音文本的实时纠错。
附图说明
[0017]参照附图来说明本专利技术的公开内容。应当了解,附图仅仅用于说明目的,而并非意在对本专利技术的保护范围构成限制。在附图中,相同的附图标记用于指代相同的部件。其中:图1为本专利技术实施例端到端中文语音文本纠错方法的流程示意图;图2为本专利技术实施例构建语音纠错数据集的流程示意图;图3为本专利技术实施例融入语音信息的预训练语言模型的训练流程示意图;图4为本专利技术实施例纯文本数据的句子进行替换的流程示意图;图5为本专利技术实施例待纠错样本编码的流程示意图;图6为本专利技术实施例Transformer编码模块的结构示意图;图7为本专利技术实施例进行错误字符检测任务和错误字符纠正任务的流程示意图;图8为本专利技术实施例端到端语音文本纠错模型的架构图;图9为本专利技术实施例端到端中文语音文本纠错装置的结构示意图。
具体实施方式
[0018]容易理解,根据本专利技术的技术方案,在不变更本专利技术实质精神下,本领域的一般技术人员可以提出可相互替换的多种结构方式以及实现方式。因此,以下具体实施方式以及附图仅是对本专利技术的技术方案的示例性说明,而不应当视为本专利技术的全部或者本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种端到端中文语音文本纠错方法,其特征在于,包括如下步骤:基于语音识别数据集构建语音纠错数据集,所述语音纠错数据集包括待纠错样本和正确样本;获取纯文本数据,并对所述纯文本数据进行预处理;采用预处理后的纯文本数据进行模型训练,获得融入语音信息的预训练语言模型;从所述待纠错样本的句子中提取拼音和字,输入至所述融入语音信息的预训练语言模型,获得语义序列表征;采用所述语义序列表征进行模型训练,获得端到端语音文本纠错模型;将待纠错文本输入至所述端到端语音文本纠错模型中,获得纠错后文本。2.根据权利要求1所述的端到端中文语音文本纠错方法,其特征在于,所述基于语音识别数据集构建语音纠错数据集,包括:获取语音识别数据集,所述语音识别数据集包括音频数据及与其对应的参考文本;基于语音转文本工具将所述音频数据转化为中文文本;比对所述中文文本及其对应的参考文本,判断是否一致;若一致,则通过拼音替换规则对所述中文文本进行随机替换,生成待纠错样本,并将参考文本作为正确样本;若不一致,则将所述中文文本作为待纠错样本,将参考文本作为正确样本;将所述待纠错样本和正确样本作为样本对加入到语音纠错数据集中。3.根据权利要求2所述的端到端中文语音文本纠错方法,其特征在于,所述拼音替换规则,包括:替换拼音完全相同的字;替换鼻音、平卷舌的字;替换拼音编辑距离为1的字。4.根据权利要求1所述的端到端中文语音文本纠错方法,其特征在于,对所述纯文本数据进行预处理,包括:采用多种字符替换策略对所述纯文本数据的句子进行替换,将替换后的错误文本作为待纠错样本,替换前的纯文本作为正确样本;所述字符替换策略包括字音混淆词替换、混淆字符拼音替换、随机替换、原词不变。5.根据权利要求4所述的端到端中文语音文本纠错方法,其特征在于,所述融入语音信息的预训练语言模型的训练过程,包括:通过词表将所述待纠错样本编码为独热序列向量;使用词嵌入将所述独热序列向量映射为固定长度的字序列向量;将所述字序列向量输入至Transformer编码模块中,输出待纠错样本的语义编码;根据所述待纠错样本的语义编码,分别进行错误字符检测任务和错误字符纠正任务,获得字符检测损失和字符纠正损失;根据所述字符检测损失和字符纠正损失计算两者损失之和,即模型损失,根...

【专利技术属性】
技术研发人员:杜振东
申请(专利权)人:南京云问网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1