语音拼写纠错方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:35986087 阅读:17 留言:0更新日期:2022-12-17 22:59
本发明专利技术实施例公开了语音拼写纠错方法、装置、计算机设备及存储介质。所述方法包括:获取输入的文本内容,以得到待纠错文本;对所述待纠错文本进行错误位置的探测,以得到探测结果;对所述探测结果根据音形态确定纠错候选词;根据所述纠错候选词以及待纠错文本确定拼写纠错序列结果;输出所述拼写纠错序列结果。通过实施本发明专利技术实施例的方法可实现能将所有的拼写错误内容完全识别并指出,纠错能力佳。纠错能力佳。纠错能力佳。

【技术实现步骤摘要】
语音拼写纠错方法、装置、计算机设备及存储介质


[0001]本专利技术涉及人工智能,更具体地说是指语音拼写纠错方法、装置、计算机设备及存储介质。

技术介绍

[0002]在银行金融领域,智能问答或智能数字人系统得到越来越多的场景运用,但无论是噪声环境下的语音识别输入,还是人工拼音打字输入等,都存在这样或那样的拼写错误问题。
[0003]现有的纠错方法是先将语音识别形成中文,再通过基于序列到序列模型进行端到端地预测纠正文本,但是这种方式并不能将所有的拼写错误内容完全识别并指出,纠错能力不佳。
[0004]因此,有必要设计一种新的方法,实现能将所有的拼写错误内容完全识别并指出,纠错能力佳。

技术实现思路

[0005]本专利技术的目的在于克服现有技术的缺陷,提供语音拼写纠错方法、装置、计算机设备及存储介质。
[0006]为实现上述目的,本专利技术采用以下技术方案:语音拼写纠错方法,包括:
[0007]获取输入的文本内容,以得到待纠错文本;
[0008]对所述待纠错文本进行错误位置的探测,以得到探测结果;
[0009]对所述探测结果根据音形态确定纠错候选词;
[0010]根据所述纠错候选词以及待纠错文本确定拼写纠错序列结果;
[0011]输出所述拼写纠错序列结果。
[0012]其进一步技术方案为:所述对所述待纠错文本进行错误位置的探测,以得到探测结果,包括:
[0013]对所述待纠错文本进行分词处理,以得到分词结果;
[0014]将所述分词结果输入语言模型内进行语义信息编码处理,以得到编码结果;
[0015]对所述编码结果进行上下文结构分析,以得到位置序列化语义结果;
[0016]对所述位置序列化语义结果进行拼写错误探测分类识别,以得到探测结果。
[0017]其进一步技术方案为:所述对所述位置序列化语义结果进行拼写错误探测分类识别,以得到探测结果,包括:
[0018]将所述位置序列化语义结果的前后若干个词语作为上下文语境进行分类识别,所述位置序列化语义结果的前后若干个词语的数量不足设定数,则利用零补齐,形成位置序列化语义结果;
[0019]将所述位置序列化语义结果输入层感知机网络,并套用Sigmoid进行分类,以确定所述位置序列化语义结果对应的词语是否有误,以得到探测结果。
[0020]其进一步技术方案为:所述对所述探测结果根据音形态确定纠错候选词,包括:
[0021]将所述探测结果对应的词语转化为拼音;
[0022]根据所述拼音确定拼音纠错词汇候选集;
[0023]根据所述探测结果对应的词语按照字形态确定形近字候选集;
[0024]整合所述拼音纠错词汇候选集以及所述形近字候选集,以得到纠错候选词。
[0025]其进一步技术方案为:所述根据所述探测结果对应的词语按照字形态确定形近字候选集,包括:
[0026]对所述探测结果对应的词语采用OCR识别技术确定汉字形近字,以得到形近字候选集。
[0027]其进一步技术方案为:所述根据所述纠错候选词以及待纠错文本确定拼写纠错序列结果,包括:
[0028]对所述待纠错文本中所述探测结果对应位置的原始错误词语确定符合要求的纠错候选词,并进行向量化表示,以得到量化结果;
[0029]对所述待纠错文本进行语义编码,且将所述待纠错文本中所述探测结果对应位置的前后若干个位置的词语拼接成矩阵,以得到上下文向量;
[0030]对所述上下文向量采用双仿射网络Biaffine计算当前位置上每个纠错候选词与下文向量计算搭配对齐分值,以得到局部最佳纠错词语;
[0031]判断所述局部最佳纠错词语与待纠错文本中所述探测结果对应位置的词语的局部纠错分值的差值是否小于阈值;
[0032]若所述局部最佳纠错词语与待纠错文本中所述探测结果对应位置的词语的局部纠错分值的差值小于阈值,则对于局部最佳纠错词语到待纠错文本中所述探测结果对应位置的词语之间的所有词语,将每个位置上的局部最佳纠错词语进行向量叠加,采用Bert计算新的上下文矩阵向量,并进一步采用双仿射网络Biaffine计算每个细分候选词语的语义对齐搭配分值,并选择最高分值对应的纠错候选词,以得到拼写纠错序列结果。
[0033]其进一步技术方案为:所述判断所述局部最佳纠错词语与待纠错文本中所述探测结果对应位置的词语的局部纠错分值的差值是否小于阈值之后,包括:
[0034]若所述局部最佳纠错词语与待纠错文本中所述探测结果对应位置的词语的局部纠错分值的差值不小于阈值,则当局部最佳纠错词语是待纠错文本中所述探测结果对应位置的词语,则确定所述探测结果对应位置的词语为原始词语。
[0035]本专利技术还提供了语音拼写纠错装置,包括:
[0036]文本获取单元,用于获取输入的文本内容,以得到待纠错文本;
[0037]错误探测单元,用于对所述待纠错文本进行错误位置的探测,以得到探测结果;
[0038]候选词确定单元,用于对所述探测结果根据音形态确定纠错候选词;
[0039]结果确定单元,用于根据所述纠错候选词以及待纠错文本确定拼写纠错序列结果;
[0040]输出单元,用于输出所述拼写纠错序列结果。
[0041]本专利技术还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
[0042]本专利技术还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程
序被处理器执行时实现上述的方法。
[0043]本专利技术与现有技术相比的有益效果是:本专利技术通过对输入的待纠错文本进行错误位置的探测,并根据音形态确定纠错候选词,结合预训练的语言模型确定最终的拼写纠错序列结果,实现能将所有的拼写错误内容完全识别并指出,纠错能力佳。
[0044]下面结合附图和具体实施例对本专利技术作进一步描述。
附图说明
[0045]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0046]图1为本专利技术实施例提供的语音拼写纠错方法的应用场景示意图;
[0047]图2为本专利技术实施例提供的语音拼写纠错方法的流程示意图;
[0048]图3为本专利技术实施例提供的语音拼写纠错方法的子流程示意图;
[0049]图4为本专利技术实施例提供的语音拼写纠错方法的子流程示意图;
[0050]图5为本专利技术实施例提供的语音拼写纠错方法的子流程示意图;
[0051]图6为本专利技术实施例提供的语音拼写纠错方法的子流程示意图;
[0052]图7为本专利技术实施例提供的错误位置探测的流程示意图;
[0053]图8为本专利技术实施例提供的语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.语音拼写纠错方法,其特征在于,包括:获取输入的文本内容,以得到待纠错文本;对所述待纠错文本进行错误位置的探测,以得到探测结果;对所述探测结果根据音形态确定纠错候选词;根据所述纠错候选词以及待纠错文本确定拼写纠错序列结果;输出所述拼写纠错序列结果。2.根据权利要求1所述的语音拼写纠错方法,其特征在于,所述对所述待纠错文本进行错误位置的探测,以得到探测结果,包括:对所述待纠错文本进行分词处理,以得到分词结果;将所述分词结果输入语言模型内进行语义信息编码处理,以得到编码结果;对所述编码结果进行上下文结构分析,以得到位置序列化语义结果;对所述位置序列化语义结果进行拼写错误探测分类识别,以得到探测结果。3.根据权利要求1所述的语音拼写纠错方法,其特征在于,所述对所述位置序列化语义结果进行拼写错误探测分类识别,以得到探测结果,包括:将所述位置序列化语义结果的前后若干个词语作为上下文语境进行分类识别,所述位置序列化语义结果的前后若干个词语的数量不足设定数,则利用零补齐,形成位置序列化语义结果;将所述位置序列化语义结果输入层感知机网络,并套用Sigmoid进行分类,以确定所述位置序列化语义结果对应的词语是否有误,以得到探测结果。4.根据权利要求3所述的语音拼写纠错方法,其特征在于,所述对所述探测结果根据音形态确定纠错候选词,包括:将所述探测结果对应的词语转化为拼音;根据所述拼音确定拼音纠错词汇候选集;根据所述探测结果对应的词语按照字形态确定形近字候选集;整合所述拼音纠错词汇候选集以及所述形近字候选集,以得到纠错候选词。5.根据权利要求4所述的语音拼写纠错方法,其特征在于,所述根据所述探测结果对应的词语按照字形态确定形近字候选集,包括:对所述探测结果对应的词语采用OCR识别技术确定汉字形近字,以得到形近字候选集。6.根据权利要求1所述的语音拼写纠错方法,其特征在于,所述根据所述纠错候选词以及待纠错文本确定拼写纠错序列结果,包括:对所述待纠错文本中所述探测结果对应位置的原始错误词语确定符合要求的纠错候选词,并进行向量化表示,以得到量化结果;对...

【专利技术属性】
技术研发人员:高鹏康维鹏袁兰吴飞周伟华高峰潘晶
申请(专利权)人:杭州摸象大数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1