文本处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号:40711881 阅读:18 留言:0更新日期:2024-03-22 11:13
本申请实施例公开了一种文本处理方法、装置、电子设备和存储介质,涉及自然语言处理技术领域,通过确定文本序列中的词汇以及词汇的语音特征、字形特征以及字义特征,对文本序列进行语义解析,得到文本序列的全局语义特征,根据词汇的语音特征、字形特征、字义特征以及全局语义特征,确定文本序列所对应的纠正文本序列,本申请结合文本序列中词汇的语音特征、字形特征、字义特征以及文本序列的全局语义特征进行文本序列纠正,从词汇的字音、字形、字义以及文本的语义多个维度来实现文本序列中词汇的纠正,如此能够提高文本序列纠错能力。

【技术实现步骤摘要】

本申请涉及自然语言处理,具体涉及一种文本处理方法、装置、电子设备和存储介质


技术介绍

1、中文拼写纠错是自然语言处理领域的一个新兴热点问题,其目标是识别出中文文本中的字词误用、字词乱序等拼写错误的词汇,并将含错文本修改为正确文本。

2、近年来,现有技术通过使用在大规模语料上进行预训练的语言模型进行错别字的检测与纠正,并取得了良好的效果,特别是基于转换器的双向编码器(bidirectionalencoder representation from transformers,bert)在该任务上有了广泛的应用。

3、然而,对于比较复杂的汉字场景或者汉字多义的场景下,现有的纠正方法存在纠错能力不足的问题,仍有相当一部分错别字难以被发现或纠正。


技术实现思路

1、本申请实施例提供一种文本处理方法、装置、电子设备和存储介质,以改善现有汉字的发音和字形的纠错方法的纠错能力不足的问题。

2、一方面,本申请实施例提供一种文本处理方法,所述方法包括:

3、确定文本序列中的词汇以本文档来自技高网...

【技术保护点】

1.一种文本处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述词汇的语音特征、字形特征、字义特征以及所述全局语义特征,确定所述文本序列所对应的纠正文本序列,包括:

3.根据权利要求2所述的文本处理方法,其特征在于,所述基于各所述词汇对应的候选输出词汇,确定各所述词汇对应的候选输出词汇的置信度,包括:

4.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述词汇的语音特征、字形特征、字义特征以及所述全局语义特征,确定所述文本序列所对应的纠正文本序列,包括:

5.根据权利要求4所述的文本处...

【技术特征摘要】

1.一种文本处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述词汇的语音特征、字形特征、字义特征以及所述全局语义特征,确定所述文本序列所对应的纠正文本序列,包括:

3.根据权利要求2所述的文本处理方法,其特征在于,所述基于各所述词汇对应的候选输出词汇,确定各所述词汇对应的候选输出词汇的置信度,包括:

4.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述词汇的语音特征、字形特征、字义特征以及所述全局语义特征,确定所述文本序列所对应的纠正文本序列,包括:

5.根据权利要求4所述的文本处理方法,其特征在于,所述确定各所述候选纠正文本序列的置信度,包括:

6.根据权利要求4所述的文本处理方法,其特征在于,所述根据所述词汇的语音特征、字形特征、字义特征以及所述全局语义特征,确定所述词汇对应的候选输出词汇,包括:

7...

【专利技术属性】
技术研发人员:王逸凡
申请(专利权)人:小红书科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1