【技术实现步骤摘要】
一种文本纠错方法、系统、电子设备及存储介质
[0001]本申请涉及数据分析
,特别是涉及一种文本纠错方法、系统、电子设备及存储介质。
技术介绍
[0002]随着计算机技术的日渐成熟和普及,在数据分析和处理中,尤其是对自然语言的文本纠错,往往依赖于高质量的词典进行文本纠错。
[0003]对当前技术的研究和实践过程中,当前技术采用高质量词典进行纠错的方法,容易造成文本出现歧义,影响了文本纠错的准确率。
技术实现思路
[0004]本申请主要解决的技术问题是提供一种文本纠错方法、系统、电子设备及存储介质,能够降低文本出现歧义的概率,提高文本纠错的准确率。
[0005]为解决上述技术问题,本申请采用的一个技术方案是:提供一种文本纠错方法,包括:获取待纠错文本;对所述待纠错文本进行错误检测,以获取所述待纠错文本中存在的不同类型的文本错误,并将不同类型的所述文本错误设置相应的第一标签;其中,所述第一标签包含不同类型的错误标签,以对应标记不同类型的所述文本错误;基于不同类型的所述第一标签对不同类型的所述 ...
【技术保护点】
【技术特征摘要】
1.一种文本纠错方法,其特征在于,所述文本纠错方法包括:获取待纠错文本;对所述待纠错文本进行错误检测,以获取所述待纠错文本中存在的不同类型的文本错误,并将不同类型的所述文本错误设置相应的第一标签;其中,所述第一标签包含不同类型的错误标签,以对应标记不同类型的所述文本错误;基于不同类型的所述第一标签对不同类型的所述文本错误进行纠错,以获取已纠错文本;其中,在所述纠错阶段,基于预设词表对纠错处的词组进行词组评分,并以最高的所述词组评分对应的候选目标文本确定为已纠错文本。2.根据权利要求1所述的文本纠错方法,其特征在于,所述对所述待纠错文本进行错误检测,以获取所述待纠错文本中存在的不同类型的文本错误,并将不同类型的所述文本错误设置相应的第一标签,包括:将所述待纠错文本输入预设错误检测模型,以获取所述待纠错文本中存在的不同类型的文本错误;其中,不同类型的所述文本错误包括:第一文本错误、第二文本错误以及第三文本错误;对不同类型的所述文本错误设置相应的第一标签,以及对正常文本设置第二标签;其中,所述第一标签包括:用于替换的第一错误标签、用于插入的第二错误标签以及用于删除的第三错误标签,第二标签包括正常标签;对所述第一文本错误对应的词组设置所述第一错误标签,对所述第二文本错误对应的词组设置所述第二错误标签,对所述第三文本错误对应的词组设置所述第三错误标签,以及对所述正常文本对应的词组设置所述正常标签;基于所述第一错误标签、所述第二错误标签、所述第三错误标签和所述正常标签构建所述待纠错文本的标签序列。3.根据权利要求2所述的文本纠错方法,其特征在于,在构建所述待纠错文本的标签序列之后,还包括:基于所述标签序列对所述待纠错文本进行编辑,以获取编辑文本;其中,所述正常标签所对应的词组还原为原始文本,所述第一错误标签所对应的词组、所述第二错误标签所对应的词组以及所述第三错误标签所对应的词组被编辑为第三标签;以还原的所述原始文本和所述第三标签确定所述候选目标文本。4.根据权利要求3所述的文本纠错方法,其特征在于,所述基于预设词表对纠错处的词组进行词组评分,以最高评分对应的候选目标文本确定已纠错文本,包括:基于预设词表对于所述候选目标文本中所述第三标签对应的词组进行评分,以获取每一处所述第三标签对应的所述预设词表评分最高的词组;其中,所述预设词表为错误纠正模型进行上下文语义判断的词表;基于评分最高的所述词组替换所述候选目标文本中对应的词组,以获取已纠错文本。5.根据权利要求3所述的文本纠错方法,其特征在于,所述基于不同类型的所述第一标签对不同类型的所述文本错误进...
【专利技术属性】
技术研发人员:徐耀彬,刘伟棠,陈立力,周明伟,郑燕玲,
申请(专利权)人:浙江大华技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。