【技术实现步骤摘要】
本申请涉及自然语言处理,具体涉及一种文本处理方法、装置、电子设备和存储介质。
技术介绍
1、中文拼写纠错是自然语言处理领域的一个新兴热点问题,其目标是识别出中文文本中的字词误用、字词乱序等拼写错误的词汇,并将含错文本修改为正确文本。
2、近年来,现有技术通过使用在大规模语料上进行预训练的语言模型进行错别字的检测与纠正,并取得了良好的效果,特别是基于转换器的双向编码器(bidirectionalencoder representation from transformers,bert)在该任务上有了广泛的应用。
3、然而,对于比较复杂的汉字场景或者汉字多义的场景下,现有的纠正方法存在纠错能力不足的问题,仍有相当一部分错别字难以被发现或纠正。
技术实现思路
1、本申请实施例提供一种文本处理方法、装置、电子设备和存储介质,以改善现有汉字的发音和字形的纠错方法的纠错能力不足的问题。
2、一方面,本申请实施例提供一种文本处理方法,所述方法包括:
3、确
...【技术保护点】
1.一种文本处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述词汇的语音特征、字形特征、字义特征以及所述全局语义特征,确定所述文本序列所对应的纠正文本序列,包括:
3.根据权利要求2所述的文本处理方法,其特征在于,所述基于各所述词汇对应的候选输出词汇,确定各所述词汇对应的候选输出词汇的置信度,包括:
4.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述词汇的语音特征、字形特征、字义特征以及所述全局语义特征,确定所述文本序列所对应的纠正文本序列,包括:
5.根据权
...【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述词汇的语音特征、字形特征、字义特征以及所述全局语义特征,确定所述文本序列所对应的纠正文本序列,包括:
3.根据权利要求2所述的文本处理方法,其特征在于,所述基于各所述词汇对应的候选输出词汇,确定各所述词汇对应的候选输出词汇的置信度,包括:
4.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述词汇的语音特征、字形特征、字义特征以及所述全局语义特征,确定所述文本序列所对应的纠正文本序列,包括:
5.根据权利要求4所述的文本处理方法,其特征在于,所述确定各所述候选纠正文本序列的置信度,包括:
6.根据权利要求4所述的文本处理方法,其特征在于,所述根据所述词汇的语音特征、字形特征、字义特征以及所述全局语义特征,确定所述词汇对应的候选输出词汇,包括:
7...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。