汉语文本纠错方法和装置制造方法及图纸

技术编号:42008502 阅读:30 留言:0更新日期:2024-07-12 12:28
公开了一种汉语文本纠错方法和装置。根据本发明专利技术实施例的汉语文本纠错方法包括:通过对比学习对汉语纠错预训练模型进行训练;通过提示学习对用于汉语纠错预训练模型的提示适配器预训练模型进行训练;以及利用经过训练的汉语纠错预训练模型和经过训练的提示适配器预训练模型,基于原始汉语文本生成经过纠错的汉语文本。

【技术实现步骤摘要】

本专利技术涉及计算机领域,尤其涉及一种汉语文本纠错方法和装置


技术介绍

1、用来纠正涉及汉语的书写错误、自动语音识别(asr)错误、以及光学字符识别(ocr)错误在内的各种错误的汉语文本纠错工具在日常生活中经常使用。然而,由于汉语的错误情况比英语更为复杂(例如,汉语的发音错误包括字和/或词的拼音和/或声调错误,且汉语的发音错误(例如,前后鼻音的混淆)难以纠正),汉语文本纠错工具的应用并不像英语文本纠错工具那样广泛。


技术实现思路

1、根据本专利技术实施例的汉语文本纠错方法,包括:通过对比学习对汉语纠错预训练模型进行训练;通过提示学习对用于汉语纠错预训练模型的提示适配器预训练模型进行训练;以及利用经过训练的汉语纠错预训练模型和经过训练的提示适配器预训练模型,基于原始汉语文本生成经过纠错的汉语文本。

2、根据本专利技术实施例的汉语文本纠错装置,包括:处理器;以及存储器,其上存储有计算机可执行指令,其中,这些计算机可执行指令在由处理器执行时,促使处理器执行如上所述的汉语文本纠错方法。

【技术保护点】

1.一种汉语文本纠错方法,包括:

2.根据权利要求1所述的汉语文本纠错方法,还包括:

3.根据权利要求2所述的汉语文本纠错方法,还包括:

4.根据权利要求2所述的汉语文本纠错方法,还包括:

5.根据权利要求4所述的汉语文本纠错方法,其中,基于所述错误样本对比数据集中的各个错误样本对比数据项的概率分布,通过提示学习对所述提示适配器预训练模型进行训练。

6.根据权利要求4所述的汉语文本纠错方法,其中,在对比学习中使用交叉熵损失函数来最大化正样本对之间的相似性并最小化负样本对之间的相似性。

7.根据权利要求4所述的汉语文本...

【技术特征摘要】

1.一种汉语文本纠错方法,包括:

2.根据权利要求1所述的汉语文本纠错方法,还包括:

3.根据权利要求2所述的汉语文本纠错方法,还包括:

4.根据权利要求2所述的汉语文本纠错方法,还包括:

5.根据权利要求4所述的汉语文本纠错方法,其中,基于所述错误样本对比数据集中的各个错误样本对比数据项的概率分布,通过提示学习对所述提示适配器预训练模型进行训练。

6.根据权利要求4所述的汉语文本纠错方法,其中,在对比学习中使用交叉熵损失函数来最大化正样本对之间的相似性并最小化负样本对之间的相似性。

7.根据权利要求4所述的汉语文本纠错方法,其中,使用归一化指数(softmax)函数来获取所述错误样本对比数据集中的各个错误样本对比数据项的概率分布。

8.根据权利要求1所述的汉语文本纠错方法,还包...

【专利技术属性】
技术研发人员:陈文轩邓博文
申请(专利权)人:广州昂宝电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1