文本的纠错方法及装置、电子设备和存储介质制造方法及图纸

技术编号:33027935 阅读:12 留言:0更新日期:2022-04-15 09:03
本申请实施例提供了一种文本的纠错方法及装置、电子设备和存储介质,所述方法包括:获取目标领域的文本数据并依据与所述目标领域对应的预设规则确定待纠错的第一文本;利用目标模型对所述待纠错的第一文本进行处理,其中,所述目标模型由数据对集合对初始模型进行训练得到,所述数据对为包含待纠错词汇和正确词汇的词汇数据对;以及在所述待纠错的第一文本中包括所述待纠错词汇的情况下,通过所述目标模型输出纠错结果,其中,所述纠错结果包括所述待纠错的第一文本以及与所述待纠错词汇对应的正确词汇。上述方案解决了现有技术中只针对明确的句法及语法等规则进行纠错,导致纠错效率较低的问题的技术问题。错效率较低的问题的技术问题。错效率较低的问题的技术问题。

【技术实现步骤摘要】
文本的纠错方法及装置、电子设备和存储介质


[0001]本申请涉及数据处理
,特别是涉及一种文本的纠错方法及装置、电子设备和存储介质。

技术介绍

[0002]目前对于文本数据纠错方案为基于规则的方法是指针对拼写错误利用一系列明确的句法及语法等规则进行判定,其中还须对其实行文本的分析、组块以及短语检测等。一旦切分结果不能保证到所有的语言准则,则认定为错误。
[0003]虽然基于规则的方法易于实现,且检错的准确率较高,但不足之处是准确率也受到这些既定规则的限制,无法覆盖到所有的语法错误,因此具有较差的迁移性。

技术实现思路

[0004]本申请实施例的目的在于提供一种文本的纠错方法及装置、电子设备和存储介质,以解决现有技术中只针对明确的句法及语法等规则进行纠错,导致纠错效率较低的问题的技术问题,具体技术方案如下:
[0005]在本申请实施的第一方面,首先提供了一种文本的纠错方法,包括:获取目标领域的文本数据并依据与所述目标领域对应的预设规则确定待纠错的第一文本;利用目标模型对所述待纠错的第一文本进行处理,其中,所述目标模型由数据对集合对初始模型进行训练得到,所述数据对为包含待纠错词汇和正确词汇的词汇数据对;以及在所述待纠错的第一文本中包括所述待纠错词汇的情况下,通过所述目标模型输出纠错结果,其中,所述纠错结果包括所述待纠错的第一文本以及与所述待纠错词汇对应的正确词汇。
[0006]可选地,所述待纠错词汇由混淆集确定,所述正确词汇由数据集确定;在利用目标模型对所述待纠错的第一文本进行处理之前,所述方法还包括:收集所述目标领域的多个关键词,并利用所述多个关键词构建所述数据集;确定与所述多个关键词中每一个字关联的同音字,得到同音字集合;其中,所述同音字为声母和韵母完全相同的字;基于四角编码确定与所述多个关键词中每一个字关联的形似字,得到形似字集合;以及利用所述同音字集合与所述形似字集合构建所述混淆集。
[0007]可选地,所述利用所述同音字集合与所述形似字集合构建所述混淆集,包括:在所述数据集中的第一关键词的文本长度符合第一预设长度标准的情况下,在所述第一关键词中随机选择一个字并利用所述同音字集合进行同音字的替换或利用所述形似字集合进行形似字的替换得到所述待纠错词汇;在所述数据集中的第二关键词的文本长度符合第二预设长度标准的情况下,在所述第二关键词中随机选择两个字并利用所述同音字集合进行同音字的替换或利用所述形似字集合进行形似字的替换得到所述待纠错词汇;以及利用所述待纠错词汇构建所述混淆集。
[0008]可选地,在利用目标模型对所述待纠错的第一文本进行处理之前,所述方法还包括:根据双向长短期记忆BiLSTM模型构建所述目标模型的错误检测网络;根据基于转换器
的双向编码表征BERT模型构建初始模型的错误检测模型和所述初始模型的错误纠正模型;依据所述目标领域设置模型训练的最大序列长度;依据数据对集合对所述初始模型进行训练得到所述目标模型。
[0009]可选地,所述利用目标模型对所述待纠错的第一文本进行处理,包括:获取与所述第一文本对应的输入向量,其中,所述输入向量由所述第一文本的词向量、位置向量和段向量联合构成;基于所述错误检测网络对所述输入向量中的每一个字符进行误差概率计算,得到计算结果;将1减去所述计算结果的差值乘以所述输入向量的结果作为所述述目标模型的错误纠正网络的输入;基于所述错误纠正网络输出待纠正字符的对应的多个纠正概率,并从候选字符列表中选择所述多个纠正概率中概率最大对应的字符作为所述第一文本中的所述待纠正字符的修正字符。
[0010]可选地,在所述待纠错的第一文本中包括所述待纠错词汇的情况下,通过所述目标模型输出纠错结果,包括:当存在至少一个所述修正字符,输出所述纠错结果。
[0011]可选地,所述纠错结果包括:所述第一文本序列、错误文本字符、正确文本字符以及错误文本字符在所述第一文本序列中的位置的开始索引构成的元组。
[0012]在本申请实施的第二方面,还提供了一种文本的纠错装置,包括:获取模块,用于获取目标领域的文本数据并依据与所述目标领域对应的预设规则确定待纠错的第一文本;处理模块,用于利用目标模型对所述待纠错的第一文本进行处理,其中,所述目标模型由数据对集合对初始模型进行训练得到,所述数据对为包含待纠错词汇和正确词汇的词汇数据对;以及纠错模块,用于在所述待纠错的第一文本中包括所述待纠错词汇的情况下,通过所述目标模型输出纠错结果,其中,所述纠错结果包括所述待纠错的第一文本以及与所述待纠错词汇对应的正确词汇。
[0013]可选地,所述待纠错词汇由混淆集确定,所述正确词汇由数据集确定;所述装置还包括:第一构建模块,用于在利用目标模型对所述待纠错的第一文本进行处理之前,收集所述目标领域的多个关键词,并利用所述多个关键词构建所述数据集;第一确定模块,用于确定与所述多个关键词中每一个字关联的同音字,得到同音字集合;其中,所述同音字为声母和韵母完全相同的字;第二确定模块,用于基于四角编码确定与所述多个关键词中每一个字关联的形似字,得到形似字集合;以及第二构建模块,用于利用所述同音字集合与所述形似字集合构建所述混淆集。
[0014]可选地,所述第二构建模块包括:第一替换单元,用于在所述数据集中的第一关键词的文本长度符合第一预设长度标准的情况下,在所述第一关键词中随机选择一个字并利用所述同音字集合进行同音字的替换或利用所述形似字集合进行形似字的替换得到所述待纠错词汇;第二替换单元,用于在所述数据集中的第二关键词的文本长度符合第二预设长度标准的情况下,在所述第二关键词中随机选择两个字并利用所述同音字集合进行同音字的替换或利用所述形似字集合进行形似字的替换得到所述待纠错词汇;以及构建单元,用于利用所述待纠错词汇构建所述混淆集。
[0015]可选地,所述装置还包括:第三构建模块,用于在利用目标模型对所述待纠错的第一文本进行处理之前,根据双向长短期记忆BiLSTM模型构建所述目标模型的错误检测网络;第四构建模块,用于根据基于转换器的双向编码表征BERT模型构建初始模型的错误检测模型和所述初始模型的错误纠正模型;设置模块,用于依据所述目标领域设置模型训练
的最大序列长度;训练模块,用于依据数据对集合对所述初始模型进行训练得到所述目标模型。
[0016]可选地,所述处理模块包括:获取单元,用于获取与所述第一文本对应的输入向量,其中,所述输入向量由所述第一文本的词向量、位置向量和段向量联合构成;计算单元,用于基于所述错误检测网络对所述输入向量中的每一个字符进行误差概率计算,得到计算结果;输入单元,用于将1减去所述计算结果的差值乘以所述输入向量的结果作为所述述目标模型的错误纠正网络的输入;处理单元,用于基于所述错误纠正网络输出待纠正字符的对应的多个纠正概率,并从候选字符列表中选择所述多个纠正概率中概率最大对应的字符作为所述第一文本中的所述待纠正字符的修正字符。
[0017]可选地,所述纠错模块包括:输出单元,用于当存在至少一个所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本的纠错方法,其特征在于,包括:获取目标领域的文本数据并依据与所述目标领域对应的预设规则确定待纠错的第一文本;利用目标模型对所述待纠错的第一文本进行处理,其中,所述目标模型由数据对集合对初始模型进行训练得到,所述数据对为包含待纠错词汇和正确词汇的词汇数据对;以及在所述待纠错的第一文本中包括所述待纠错词汇的情况下,通过所述目标模型输出纠错结果,其中,所述纠错结果包括所述待纠错的第一文本以及与所述待纠错词汇对应的正确词汇。2.根据权利要求1所述的方法,其特征在于,所述待纠错词汇由混淆集确定,所述正确词汇由数据集确定;在利用目标模型对所述待纠错的第一文本进行处理之前,所述方法还包括:收集所述目标领域的多个关键词,并利用所述多个关键词构建所述数据集;确定与所述多个关键词中每一个字关联的同音字,得到同音字集合;其中,所述同音字为声母和韵母完全相同的字;基于四角编码确定与所述多个关键词中每一个字关联的形似字,得到形似字集合;以及利用所述同音字集合与所述形似字集合构建所述混淆集。3.根据权利要求2所述的方法,其特征在于,所述利用所述同音字集合与所述形似字集合构建所述混淆集,包括:在所述数据集中的第一关键词的文本长度符合第一预设长度标准的情况下,在所述第一关键词中随机选择一个字并利用所述同音字集合进行同音字的替换或利用所述形似字集合进行形似字的替换得到所述待纠错词汇;在所述数据集中的第二关键词的文本长度符合第二预设长度标准的情况下,在所述第二关键词中随机选择两个字并利用所述同音字集合进行同音字的替换或利用所述形似字集合进行形似字的替换得到所述待纠错词汇;以及利用所述待纠错词汇构建所述混淆集。4.根据权利要求1所述的方法,其特征在于,在利用目标模型对所述待纠错的第一文本进行处理之前,所述方法还包括:根据双向长短期记忆BiLSTM模型构建所述目标模型的错误检测网络;根据基于转换器的双向编码表征BERT模型构建初始模型的错误检测模型和所述初始模型的错误纠正模型;依据所述目标领域设置模型训练的最大序列长度;依据数据对集合对所述初始模型进行训练得到所述目标模型。5....

【专利技术属性】
技术研发人员:于淼刘炎覃建策陈邦忠
申请(专利权)人:完美世界控股集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1