当前位置: 首页 > 专利查询>上海大学专利>正文

基于表征学习的中文自动语音识别文本修复方法及系统技术方案

技术编号:35868807 阅读:15 留言:0更新日期:2022-12-07 11:02
本发明专利技术涉及一种基于表征学习的中文自动语音识别文本修复方法及系统,基本BERT的中文标点符号预测模型,相比于现有的中文标点符号模型,本发明专利技术使用了更高效的RoBERTa预测模型,对原BERT预测模型进行微调,并且使用Transformer来整合特征嵌入,是目前完整且高效的中文标点符号预测任务的方法和系统;提出的文本纠错模型中,使用双向LSTM结构提取了字音和笔画特征的嵌入层,借助于双向LSTM的记忆能力更好地解决了长程依赖问题;提出的模型将中文标点符号和中文纠错模型两个任务进行结合,形成了一个端到端的中文ASR输出本文修复系统,从两个角度完全解决ASR输出文本的错误,提高语音文本的正确率。提高语音文本的正确率。提高语音文本的正确率。

【技术实现步骤摘要】
基于表征学习的中文自动语音识别文本修复方法及系统


[0001]本专利技术涉及一种语音识别技术,特别涉及一种基于表征学习的中文自动语音识别文本修复方法及系统。

技术介绍

[0002]ASR(Automatic Speech Recognition,自动语音识别,ASR)在工业系统中起到了越来越重要的作用,但是在音频转录时,不可避免的噪音会导致转录生成的文本与真实内容有所差异。因此,ASR转录之后的文本修复就是一个非常重要的步骤。在ASR文本修复的过程中,有两个问题值得被关注:第一转录过程中,噪音或者其他因素会影响语音的质量,导致转录出现错字漏字现象;第二转录后的文本不包含标点符号,大大降低了转录文本的可读性,增大了处理文本的难度。
[0003]不管应用在词级别或句级别,中文纠错都是一个非常重要的任务,该任务是为了解决文本中错字问题。中文纠错可以用到许多自然语言处理的任务中,例如光学字符识别和文章评分任务。中文纠错是一个非常具有挑战性的问题,为了更好的解决中文纠错的问题,必须具备像人一样的语言理解能力。常见的中文错误分为两种:第一种是形近字错误,即错误的字和正确的字是字形方面的差别,这种错误常发生在光学字符识别领域。另一种是音近字错误,即错误的字和正确的字是拼音方面的差别,该错误往往出现在语音识别ASR领域。
[0004]标点符号预测或标点符号修复指的是利用计算机对无标点文本进行标点修复预测,使预测之后的文本相比于之前的文本更加具有可读性,符合自身语义。目前针对标点符号预测的公开数据集为IWSLT数据集,该数据集是针对英文语音转写,中文标点符号预测或者中文标点符号修复比英文的更加困难。首先,中文和英文有天然的区别,英文每个词都有空格隔开,而且中文中每个字都有多种含义,即中文字的多义性。其次,中文标点相比于英文标点更加丰富且多变,这也增大了中文标点预测任务的难度,迄今在中文标点符号预测并没有好的进展。所以不管是在数据集方面或者语言模型方面,中文标点符号预测有很大的研究空间。

技术实现思路

[0005]针对中文自动语音识别后纠错难问题,提出了一种基于表征学习的中文自动语音识别文本修复方法及系统。
[0006]本专利技术的技术方案为:一种基于表征学习的中文自动语音识别文本修复方法,中文自动语音识别出的中文送入BERT中文分词器进行编码后输出词向量,词向量送入中文标点符号预测模型进行标点符号预测,首先词向量分别通过字编码嵌入、拼音嵌入和字形嵌入编码和解码后送入Transformer网络,Transformer网络对字编码嵌入、拼音嵌入和字形嵌入进行自注意力机制的学习,整合字编码嵌入层、拼音嵌入层和字形嵌入层的信息的同时将嵌入层的维度拉伸成分类模块输入的维度,分类模块输出每个字的之后最大概率的标
点符号的类别;中文标点符号预测模型输出带有标点符号的句子送入到中文纠错模型中进行纠错,在中文纠错模型中输入句子先使用基于词表的分词器得到字符嵌入和位置编码嵌入,同时输入句子送入双向LSTM的网络编码器中得到字音嵌入和笔画嵌入,将字符嵌入、位置编码嵌入、字音嵌入和字形嵌入进入融合嵌入后,送入基于Transformer结构的中文纠错网络中,得到修复后的文本。
[0007]一种基于表征学习的中文自动语音识别文本修复系统,为中文标点符号预测模型和中文纠错模型封装成一个端到端的中文文本修复模型,输入的中文文本送中文标点符号预测模型,中文标点符号预测模型输出的带有标点符号的句子送中文纠错模型纠错,获得修复后的文本;
[0008]所述中文标点符号预测模型包括BERT中文分词器、RoBERTa预测模型、ChineseBERT预测模型、Transformer网络和分类模块;
[0009]所述BERT中文分词器:对输入的中文文本中的每一个中文词进行编码从而获得词向量;
[0010]所述RoBERTa预测模型:将词向量编码成通过预训练任务得到的字编码向量,即获得字编码嵌入;
[0011]所述ChineseBERT预测模型:提取词向量的字音特征和字形特征,得到拼音嵌入和字形嵌入;
[0012]所述Transformer网络:对字编码嵌入、拼音嵌入和字形嵌入进行自注意力机制的学习,整合字编码嵌入层、拼音嵌入层和字形嵌入层的信息的同时将嵌入层的维度拉伸成分类模块输入的维度;
[0013]所述分类模块:由两层线性层和两层Dropout层来进行叠加,预测每一个字符编码对于标点分类的概率,输出每个字的之后最大概率的标点符号的类别;
[0014]所述中文纠错模型采用PLOME模型。
[0015]优选的,所述RoBERTa预测模型采用动态掩码替换原BERT模型中的静态掩码和取消BERT模型中的下文预测任务,采用的掩码策略包括0%掩码、15%掩码以及30%掩码。
[0016]优选的,所述ChineseBERT预测模型中拼音嵌入:通过开源工具获取每个字的拼音,将每个字的拼音通过一层宽度为二的CNN网络进行卷积,然后通过最大池化层获得拼音嵌入;
[0017]字形嵌入:使用三种中文字体的字形图片,每一个字形图片的大小为24*24,每个字的三种中文字体组合成24*24*3的张量,然后使用全卷积神经网络对张量进行拉伸形成字形嵌入。
[0018]优选的,所述Transformer网络注意力机制的核心公式如下式所示:
[0019]式中:Q是查询矩阵;K是注意力机制关注的信息;V是原始输入值通过线性变化之后的矩阵,用来保存输入特征,Q与K的转置K
T
进行点乘计算出对于Q在V上的注意力权重;d
k
是多头注意力机制算法中的head大小,利用进行尺度化的目的是避免Q与K
T
的点积太
大,一旦点积过大时,经过Softmax函数进行反向传播的梯度计算,将结果平滑到0

1区间。
[0020]优选的,所述中文纠错模型输入包括四个嵌入层:字符嵌入、位置嵌入、拼音嵌入和笔画嵌入,通过查找表和预训练分词器,获得字符嵌入和位置嵌入;采用BiLSTM编码器用来表示拼音嵌入和笔画嵌入,字符嵌入、位置嵌入、拼音嵌入和笔画嵌入输出通过融合嵌入融合后,送入12层的Transformer后得到输出。
[0021]一种基于表征学习的中文自动语音识别文本修复系统训练方法,包括如下步骤:
[0022]1)选择数据集,选择LC中文新闻数据集、Json版社区问答数据集以及SIGHAN2015CSC Datasets三个数据集;
[0023]2)对样本数据集进行预处理,对中文标点符号数据集中的文本标点符号异常情况进行清洗,其次去除中文标点符号数据集中BERT预测模型编码器不能识别的字符,最后使用BERT预测模型对中文标点符号数据集中的文本进行词向量的编码,作为微调预测模型的输入;
[0024]3)训练阶段,分别对中文标点符号预测模型以及对中文纠错模型进行训练,在训练两个模型的同时,提取两个模型最终得到的嵌入层本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于表征学习的中文自动语音识别文本修复方法,其特征在于,中文自动语音识别出的中文送入BERT中文分词器进行编码后输出词向量,词向量送入中文标点符号预测模型进行标点符号预测,首先词向量分别通过字编码嵌入、拼音嵌入和字形嵌入编码和解码后送入Transformer网络,Transformer网络对字编码嵌入、拼音嵌入和字形嵌入进行自注意力机制的学习,整合字编码嵌入层、拼音嵌入层和字形嵌入层的信息的同时将嵌入层的维度拉伸成分类模块输入的维度,分类模块输出每个字的之后最大概率的标点符号的类别;中文标点符号预测模型输出带有标点符号的句子送入到中文纠错模型中进行纠错,在中文纠错模型中输入句子先使用基于词表的分词器得到字符嵌入和位置编码嵌入,同时输入句子送入双向LSTM的网络编码器中得到字音嵌入和笔画嵌入,将字符嵌入、位置编码嵌入、字音嵌入和字形嵌入进入融合嵌入后,送入基于Transformer结构的中文纠错网络中,得到修复后的文本。2.一种基于表征学习的中文自动语音识别文本修复系统,其特征在于,为中文标点符号预测模型和中文纠错模型封装成一个端到端的中文文本修复模型,输入的中文文本送中文标点符号预测模型,中文标点符号预测模型输出的带有标点符号的句子送中文纠错模型纠错,获得修复后的文本;所述中文标点符号预测模型包括BERT中文分词器、RoBERTa预测模型、ChineseBERT预测模型、Transformer网络和分类模块;所述BERT中文分词器:对输入的中文文本中的每一个中文词进行编码从而获得词向量;所述RoBERTa预测模型:将词向量编码成通过预训练任务得到的字编码向量,即获得字编码嵌入;所述ChineseBERT预测模型:提取词向量的字音特征和字形特征,得到拼音嵌入和字形嵌入;所述Transformer网络:对字编码嵌入、拼音嵌入和字形嵌入进行自注意力机制的学习,整合字编码嵌入层、拼音嵌入层和字形嵌入层的信息的同时将嵌入层的维度拉伸成分类模块输入的维度;所述分类模块:由两层线性层和两层Dropout层来进行叠加,预测每一个字符编码对于标点分类的概率,输出每个字的之后最大概率的标点符号的类别;所述中文纠错模型采用PLOME模型。3.根据权利要求2所述基于表征学习的中文自动语音识别文本修复系统,其特征在于,所述RoBERTa预测模型采用动态掩码替换原BERT模型中的静态掩码和取消BERT模型中的下文预测任务,采用的掩码策略包括0%掩码、15%掩码以及30%掩码。4.根据权利要求2所述基于表征学习的中文自动语音识别文本修复系统,其特征在于,所述ChineseBERT预测模型中拼音嵌入:通过开源工具获取每个字的拼音,将每个字的拼音通过一层宽度为二的CNN网络进行卷积,然后通过最大池化层获得拼音嵌入;字形嵌入:使用三种中文字体的字形图片,每一个字形图片的大小为24*24,每个字的三种中文字体组合成24*24*3的张量,然后使用全卷积神经网络对张量进行拉伸形成字形嵌入。5.根据权利要求2所述基于表征学习的中文自动语音识别文本修复系统,其特征在于,
所述Transformer网络注意力机制的核心公式如下式所示:式中:Q是查询矩阵;K是注意力机制关注的信息;V是原始输入值通过线性变化之后的矩阵,用来保存输入特征,Q与K的转置K
T
进行点乘计算出对于Q在V上的注意力权重;d
k
是多头注意力机制算法中的head大小,利用进行尺度化的目的是避免Q与K
T
的点积太大,一旦点积过大时,经过Softmax函数进行反向传播的梯度计算,将结果平滑到0

1区间。6.根据权利要求2所述基于表征学习的中文自动语音识别文本修复系统,其特征在于,所述中文纠错模型输入包括四个嵌入层:字符嵌入、位置嵌入、拼音嵌入和笔画嵌入,通过查找表和预训练分词器,获得字符嵌入和位置嵌入;采用BiLSTM编码器用来表示拼音嵌入和笔画嵌入,字符嵌入、位置嵌入、拼音嵌入和笔画嵌入输出通过融...

【专利技术属性】
技术研发人员:武星张源
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1