【技术实现步骤摘要】
文本纠错方法、装置、电子设备及计算机可读存储介质
[0001]本申请的实施方式涉及计算机
,更具体地,本申请的实施方式涉及文本纠错方法、文本纠错装置、电子设备以及计算机可读存储介质。
技术介绍
[0002]本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]文本存在的错误类型可能是多种多样的,例如:由多字或少字所导致的文本错误、由错别字所导致的文本错误等。对文本进行纠错,能够有效减少错误情况的出现,提升文本的质量。
[0004]相关技术中,在对文本进行纠错时,针对不同的错误类型,需要采用不同的纠错方法来进行纠正。当文本同时存在多种错误类型时,需要同时采用多种纠错方法以达到对文本的纠错效果。这样一来会增加文本处理的复杂度,使得文本纠错的效率较低。
[0005]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
>[0006]本申请本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文本纠错方法,其特征在于,所述方法包括:基于待纠错文本的第一特征信息,对所述待纠错文本中的字符进行错误检测,以确定所述待纠错文本中的字符所对应的错误检测结果,以及基于所述待纠错文本的第二特征信息,对所述待纠错文本中的字符进行长度预测,以确定所述待纠错文本中的字符所对应的长度预测值;基于所述待纠错文本中的字符所对应的错误检测结果与长度预测值,对所述待纠错文本采用掩码字符进行字符替换,得到所述待纠错文本对应的中间文本;通过将所述中间文本中的掩码字符替换为所述掩码字符对应的预测字符,得到所述待纠错文本对应的修正文本。2.根据权利要求1所述的文本纠错方法,其特征在于,所述待纠错文本由语音或图片经过文本转化得到。3.根据权利要求1所述的文本纠错方法,其特征在于,所述第一特征信息和所述第二特征信息均包括所述待纠错文本中各字符对应的特征信息。4.根据权利要求3所述的文本纠错方法,其特征在于,所述方法还包括:对待纠错文本中的字符所对应的各种类型的字符特征进行特征组合,得到所述待纠错文本中的字符所对应的多维字符特征;对所述待纠错文本中的字符所对应的多维字符特征进行上下文信息整合,得到所述待纠错文本中的字符的特征信息。5.根据权利要求4所述的文本纠错方法,其特征在于,所述字符特征的类型包括:内容特征、位置特征、类别特征中任意一种或多种类型,其中所述类别特征用于表征字符是否属于易错字符。6.根据权利要求4所述的文本纠错方法,其特征在于,所述字符特征的类型还包括拼音特征,所述方法还包括:从待处理字符的拼音字母中提取所述待处理字符的拼音特征。7.根据权利要求1所述...
【专利技术属性】
技术研发人员:徐梓钧,冯旻伟,尹竞成,阮良,
申请(专利权)人:杭州网易智企科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。