【技术实现步骤摘要】
一种文本纠错方法及装置
[0001]本申请实施例涉及语音识别
,尤其涉及一种文本纠错方法及装置。
技术介绍
[0002]近年来,语音自动识别(Automatic Speech Recognition,ASR)的效果非常稳定,语音识别的词错误率每年都在降低,ASR技术在某些领域的应用取得了很好的效果,例如电话呼叫、人机交互、自动听写等。但是任何说话者和任何环境下的语音自动转写的问题还远远没有解决。由于环境噪音、语音质量、方言和说话方式以及ASR系统词汇量等多因素的影响,不可避免地会导致ASR出现错误。比如同音词、近似音词、错别字等预期之外的错误文本,从而导致词性标注、依存关系分析等一系列错误。因此,在语音识别技术瓶颈下,文本纠错成为非常关键的一个环节,良好的纠错能极大地改善输出文本质量。
[0003]面向语音识别的文本纠错是一项纠正语音识别后文本中错误内容的自然语言处理技术,具体包含错别字更正、语法纠错和特定场景下的语义纠错等纠错对象。通过文本纠错技术可以降低语音识别错误率。现有的文本纠错方法主要有:基于中文分词
【技术保护点】
【技术特征摘要】
1.一种文本纠错方法,其特征在于,包括:基于语音识别系统输出的语音识别文本,对所述语音识别文本进行识别,分别得到所述语音识别文本的错误信息、所述语音识别文本的文本语义及所述语音识别文本的领域信息;基于所述错误信息、所述文本语义及所述领域信息,通过文本纠错模型中的位置子模型,得到所述语音识别文本的纠错位置;通过所述文本纠错模型中的纠错子模型,对所述纠错位置的错误文本进行纠错,得到纠错后的语音识别文本;所述文本纠错模型是通过对所述位置子模型的第一损失值和所述纠错子模型的第二损失值进行训练得到的。2.如权利要求1所述的方法,其特征在于,所述对所述语音识别文本进行识别,得到所述语音识别文本的错误信息,包括:通过错误学习模块,对所述语音识别文本进行识别,得到所述语音识别文本的错误信息;所述错误学习模块用于对历史样本中的原始文本和纠错文本进行对照比较,生成并存储各错误信息。3.如权利要求1所述的方法,其特征在于,所述对所述语音识别文本进行识别,得到所述语音识别文本的文本语义,包括:通过文本语义获取模块,对所述语音识别文本进行识别,得到所述语音识别文本的文本语义;所述文本语义获取模块是通过对历史样本中的原始文本进行词向量学习,并基于词向量进行语义学习得到的。4.如权利要求1所述的方法,其特征在于,所述对所述语音识别文本进行识别,得到所述语音识别文本的领域信息,包括:通过领域信息获取模块,对所述语音识别文本进行识别,得到所述语音识别文本的领域信息;所述领域信息获取模块是通过对历史样本中的原始文本的词向量进行领域学习,基于领域对所述原始文本的领域词向量设定领域权重。5.如权利要求1
‑
4任一项所述的方法,其特征在于,所述文本纠错模型通过如下方式训练得到,包括:针对历史样本中的原始文本和纠错文本,通过所述错误学习模块得到所述原始文本的错误信息;所述错误信息包括纠错位置和纠错信息;针对历史样本中的原始文本,通过所述文本语义获取模块得到所述原始文本的文本语义;针对历史样本中的原始文本,通过所述领域信息获取模块得到所述原始文本的领域信息;将所述原始文本的错误信息、所述原始文本的文本语义和所述原始文本的领域信息作为所述文本纠错模型的输入值,将所述错误信息的纠错位置作为所述位置子模型的标签值,将所述错误信息的纠错信息作为所述纠错子模型的标...
【专利技术属性】
技术研发人员:宁一鉴,陈琳莉,杨娟,钟凯,罗中鸣,冯静,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。