【技术实现步骤摘要】
一种文本纠错方法、装置、电子设备及存储介质
[0001]本说明书涉及大数据领域,尤其涉及一种文本纠错方法、装置、电子设备及存储介质。
技术介绍
[0002]相关技术中,机器翻译模型进行纠错文本采用的是“编码器
‑
解码器”框架。编码器为一个RNN(Recurrent Neural Network,循环神经网络),用于将输入的文本转换为对应的字符向量。解码器为另一个RNN,用于对转换的字符向量进行机器翻译,将输入文本对应的字符向量翻译为正确的字符向量,从而得到纠错后的正确文本。然而,机器翻译模型在文本纠错任务中的解码范围过大,容易出现早停(输入长度和输出长度不等)、意外字等情况,从而影响文本纠错的准确度。
技术实现思路
[0003]为克服相关技术中存在的问题,本说明书提供了一种文本纠错方法、装置、电子设备及存储介质。
[0004]根据本说明书实施例的第一方面,提供一种文本纠错方法,所述方法包括:
[0005]获取待纠错文本,所述待纠错文本包含至少一个待纠错字符;
[000 ...
【技术保护点】
【技术特征摘要】
1.一种文本纠错方法,其特征在于,所述方法包括:获取待纠错文本,所述待纠错文本包含至少一个待纠错字符;提取每一所述待纠错字符的字符特征,并基于提取的字符特征确定每一所述待纠错字符对应的候选字符集合;根据确定的候选字符集合指示的纠错范围对所述待纠错文本中对应的待纠错字符进行文本纠错,以得到所述待纠错文本对应的正确文本。2.根据权利要求1所述的方法,其特征在于,所述基于提取的字符特征确定每一所述待纠错字符对应的候选字符集合,包括:获取每一所述待纠错字符对应的待定字符集合;基于提取的字符特征,确定所述待定字符集合中每一待定字符与对应的待纠错字符之间的关联程度;根据所述关联程度确定候选字符集合。3.根据权利要求2所述的方法,其特征在于,所述基于提取的字符特征,确定所述待定字符集合中每一待定字符与对应的待纠错字符的关联程度,包括:将每一所述待纠错字符的字符特征与对应的待定字符集合中每一待定字符的字符向量的乘积作为相应待定字符的关联分数;其中,所述关联分数用于表征每一待定字符与对应的待纠错字符之间的关联程度。4.根据权利要求3所述的方法,其特征在于,在所述字符特征包含多种类型的特征的情况下,所述将每一所述待纠错字符的字符特征与对应的待定字符集合中每一待定字符的字符向量的乘积作为相应待定字符的关联分数,包括:将所述多种类型的特征进行层归一化,并将层归一化的结果与对应的待定字符集合中每一待定字符的字符向量的乘积作为相应待定字符的关联分数;或者,分别计算所述多种类型的特征与对应的待定字符集合中每一待定字符的字符向量的乘积,并对得到的计算结果进行合并计算,得到所述关联分数。5.根据权利要求3所述的方法,其特征在于,所述根据所述关联分数确定每一所述待纠错字符对应的候选字符集合,包括:将所述待定字符集合中所述关联分数靠前的预设数量的待定字符确定为对应的待纠错字符的候选字符,并将确定的候选字符...
【专利技术属性】
技术研发人员:童建成,
申请(专利权)人:杭州数梦工场科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。