System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本纠错伪数据生成方法、装置、介质及程序产品制造方法及图纸_技高网

文本纠错伪数据生成方法、装置、介质及程序产品制造方法及图纸

技术编号:41174881 阅读:3 留言:0更新日期:2024-05-07 22:11
本申请提供了一种文本纠错伪数据生成方法、装置、介质及程序产品,该方法包括:获取正确语句;基于拼音输入法模拟正确语句的输入过程,并在输入过程中将正确语句中的目标字词替换为在拼音输入法中对应的错误字词,得到目标语句;基于目标语句确定正确语句对应的错误语句;基于正确语句和错误语句生成文本纠错伪数据。实践表明这种方式可以提高文本纠错伪数据的质量。

【技术实现步骤摘要】

本申请实施例涉及计算机,尤其涉及一种文本纠错伪数据生成方法、装置、介质及程序产品


技术介绍

1、为了提高拼音输入法的纠错能力,通常需要基于大量的文本纠错伪数据作为训练数据来训练语句纠错模型,该语句纠错模型可以将输入的错误语句纠正为正确语句,其中,该文本纠错伪数据包括:含错别字的语句(即错误语句)以及该错误语句对应的正确语句。由于文本纠错伪数据数量越庞大,语句纠错模型的纠错能力则越强,基于此,文本纠错伪数据的生成至关重要。

2、目前可以基于正确语句和错别字混淆集生成错误语句,其中,该错别字混淆集中记录了每个字与其易发生拼音混淆的字,例如,正确语句是“一不小心选到错误的方向”,针对该语句中的“误”字,在错别字混淆集中查找“误”字对应的拼音易混淆的字,假设查找到了“勿”,基于此,可以将正确语句中的“误”字替换为“勿”,最终得到的错误语句是“一不小心选到错勿的方向”。最后将该错误语句和对应的正确语句构成的语句对确定为文本纠错伪数据。

3、然而,基于上述方法生成的文本纠错伪数据经常与用户实际输入场景不符,换句话讲,用户实际输入场景中通常不会出现这种错误语句,导致得到的文本纠错伪数据质量不高。


技术实现思路

1、本申请提供一种文本纠错伪数据生成方法、装置、介质及程序产品。从而可以提高文本纠错伪数据质量。

2、第一方面,本申请实施例提供一种文本纠错伪数据生成方法,包括:获取正确语句;基于拼音输入法模拟正确语句的输入过程,并在输入过程中将正确语句中的目标字词替换为在拼音输入法中对应的错误字词,得到目标语句;基于目标语句确定正确语句对应的错误语句;基于正确语句和错误语句生成文本纠错伪数据。

3、第二方面,本申请实施例提供一种文本纠错伪数据生成装置,包括:获取模块、生成模块和确定模块,获取模块用于获取正确语句;生成模块用于基于拼音输入法模拟正确语句的输入过程,并在输入过程中将正确语句中的目标字词替换为在拼音输入法中对应的错误字词,得到目标语句;确定模块用于基于目标语句确定正确语句对应的错误语句;生成模块还用于基于正确语句和错误语句生成文本纠错伪数据。

4、第三方面,本申请实施例提供一种电子设备,包括:处理器和存储器,该存储器用于存储计算机程序,该处理器用于调用并运行该存储器中存储的计算机程序,执行如第一方面或其各实现方式中的方法。

5、第四方面,本申请实施例提供一种计算机可读存储介质,用于存储计算机程序,计算机程序使得计算机执行如第一方面或其各实现方式中的方法。

6、第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序指令,该计算机程序指令使得计算机执行如第一方面或其各实现方式中的方法。

7、第六方面,本申请实施例提供一种计算机程序,计算机程序使得计算机执行如第一方面或其各实现方式中的方法。

8、通过本申请实施例提供的技术方案,由于通过模拟拼音输入法将正确语句中的目标字词替换为拼音输入法中的错误字词,该过程与用户实际输入场景保持一致,从而使得基于该方法生成的错误语句与用户实际输入场景相符,换句话讲,通过本申请实施例提供的文本纠错伪数据生成方法可以提高文本纠错伪数据的质量。

本文档来自技高网...

【技术保护点】

1.一种文本纠错伪数据生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述在所述输入过程中将所述正确语句中的目标字词替换为在所述拼音输入法中对应的错误字词,得到目标语句之前,还包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述错字个数和所述错误级别在所述正确语句中选择所述目标字词,包括:

4.根据权利要求2所述的方法,其特征在于,所述基于所述错字个数和所述错误级别在所述正确语句中选择所述目标字词之前,还包括:

5.根据权利要求2-4中任一项所述的方法,其特征在于,所述在所述目标字词的拼音对应的候选字词中选择所述错误字词,包括:

6.根据权利要求2-4中任一项所述的方法,其特征在于,所述在所述目标字词的拼音对应的候选字词中选择所述错误字词,包括:

7.根据权利要求6所述的方法,其特征在于,所述在所述候选字词中除所述目标字词以外的字词中选择所述错误字词,包括:

8.根据权利要求6所述的方法,其特征在于,所述在所述候选字词中除所述目标字词以外的字词中选择所述错误字词,包括:

9.根据权利要求1-4任一项所述的方法,其特征在于,所述基于所述目标语句确定所述正确语句对应的错误语句,包括:

10.根据权利要求9所述的方法,其特征在于,所述基于所述目标语句的困惑度确定所述正确语句对应的错误语句,包括:

11.一种文本纠错伪数据生成装置,其特征在于,包括:获取模块、生成模块和确定模块;

12.一种电子设备,其特征在于,包括:

13.一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序使得计算机执行如权利要求1至10中任一项所述的方法。

14.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现如权利要求1至10中任一项所述的方法。

...

【技术特征摘要】

1.一种文本纠错伪数据生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述在所述输入过程中将所述正确语句中的目标字词替换为在所述拼音输入法中对应的错误字词,得到目标语句之前,还包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述错字个数和所述错误级别在所述正确语句中选择所述目标字词,包括:

4.根据权利要求2所述的方法,其特征在于,所述基于所述错字个数和所述错误级别在所述正确语句中选择所述目标字词之前,还包括:

5.根据权利要求2-4中任一项所述的方法,其特征在于,所述在所述目标字词的拼音对应的候选字词中选择所述错误字词,包括:

6.根据权利要求2-4中任一项所述的方法,其特征在于,所述在所述目标字词的拼音对应的候选字词中选择所述错误字词,包括:

7.根据权利要求6所述的方法,其特征在于,所述在所述候选字词中除所述目标字词以外的...

【专利技术属性】
技术研发人员:胡勇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1