文本纠错语料生成方法、装置、设备及存储介质制造方法及图纸

技术编号:36562654 阅读:16 留言:0更新日期:2023-02-04 17:18
本公开提供了一种文本纠错语料生成方法、装置、设备及存储介质,通过将原始语料进行预处理,得到待处理语料,获取所述待处理语料的实体信息,并根据所述待处理语料的实体信息确定所述待处理语料的多个错误位置,根据错误类型共存策略,在所述待处理语料的多个错误位置设置错误文本,以生成初步文本纠错语料,通过语言困惑模型过滤所述初步文本纠错语料,得到目标文本纠错语料,本公开可以更加高效、便捷的获得多样化本文本纠错语料,以满足各种类型的供后续文本纠错模型训练使用。的供后续文本纠错模型训练使用。的供后续文本纠错模型训练使用。

【技术实现步骤摘要】
文本纠错语料生成方法、装置、设备及存储介质


[0001]本公开涉及文本纠错
,尤其涉及一种文本纠错语料生成方法、装置、设备及存储介质。

技术介绍

[0002]文本纠错技术是有益于多个领域的一项重要技术,能够极大地减少文本撰写者的工作量,尤其对于如法律法规、政府发文、新闻编辑等需要优质文本质量的领域而言更是如此。
[0003]而目前深度学习领域对于文本纠错模型的效果主要取决于文本纠错数据的数量和质量,而这里文本纠错数据通常是通过常规的人工标注手段得到的数据,不仅工作量较大,还无法在短时间内得到较为优质的大数据量纠错文本语料,因此现有技术中的文本纠错语料质量较差,多样性也差。

技术实现思路

[0004]本公开提供了一种文本纠错语料生成方法、装置、设备及存储介质,以至少解决现有技术中存在的以上技术问题。
[0005]根据本公开的第一方面,提供了一种文本纠错语料生成的方法,其特征在于,所述方法包括:
[0006]将原始语料进行预处理,得到待处理语料;
[0007]获取所述待处理语料的实体信息,并根据所述待处理语料的实体信息确定所述待处理语料的多个错误位置;
[0008]根据错误类型共存策略,在所述待处理语料的多个错误位置设置错误文本,以生成初步文本纠错语料;
[0009]通过语言困惑模型过滤所述初步文本纠错语料,得到目标文本纠错语料。
[0010]在一可实施方式中,所述获取所述待处理语料的实体信息,并根据所述待处理语料的实体信息确定所述待处理语料的多个错误位置,包括:
[0011]获取所述待处理语料的实体词以及所述实体词的实体位置;
[0012]以词粒度作为分割单位,将所述待处理语料输入分词模型进行分割,得到具有分词结构的待处理语料;
[0013]设定预设错误频次,以避开所述实体词以及所述实体词的实体位置为原则,在所述具有分词结构的待处理语料中确定多个错误位置。
[0014]在一可实施方式中,所述错误类型包括:音相似错误类型、形相似错误类型、颠倒错误类型、多字错误类型以及少字错误类型,相应的,所述根据错误类型共存策略,在所述待处理语料的多个错误位置设置错误文本,以生成初步文本纠错语料,包括:
[0015]在基于同一句待处理语料中音相似错误和形相似错误不共存的前提下,按照预设错误类型比例,在所述待处理语料的多个错误位置设置相应的错误类型文本,以生成初步
文本纠错语料;其中,所述音相似错误类型包括:“的地得”错误类型。
[0016]在一可实施方式中,在所述待处理语料的多个错误位置设置相应的错误类型文本,包括:
[0017]若所述错误类型为音相似错误类型,则基于音相似混淆数据集,在所述待处理语料的当前错误位置设置具有音相似错误类型的错误文本,其中,所述音相似混淆数据集为具有拼音内部的声母、韵母、以及声调相似读音的混淆数据集;或者,
[0018]若所述错误类型为形相似错误类型,则基于形相似混淆数据集,在所述待处理语料的当前错误位置设置具有形相似错误类型的错误文本,其中,所述形相似混淆数据集为具有形相近或者混淆字词的混淆数据集;或者,
[0019]若所述错误类型为颠倒错误类型,则通过设置邻词颠倒与单字颠倒的预设颠倒比例,以及预设颠倒词范围长度,在所述待处理语料的当前错误位置设置具有颠倒错误类型的错误文本;或者,
[0020]若所述错误类型为多字错误类型,则通过设置与当前错误位置中的边缘字进行成词以及随机插字的预设多字比例,在当前错误位置的相邻位置设置具有多字错误类型的错误文本;或者,
[0021]若所述错误类型为少字错误类型,则通过在当前错误位置的文本中随机删除预设字数的文字,以形成具有少字错误类型的错误文本;或者,
[0022]若所述错误类型为“的地得”错误类型,且满足“的地得”位于当前错误位置的末端位置处,或者“的地得”在当前错误位置属于单字结构的条件下,则在所述当前错误位置设置具有“的地得”错误类型的错误文本。
[0023]在一可实施方式中,所述通过语言困惑模型过滤所述初步文本纠错语料,得到目标文本纠错语料,包括:
[0024]分别将所述待处理语料以及与其对应的所述初步文本纠错语料输入所述语言困惑模型,得到所述待处理语料的第一分数和所述初步文本纠错语料的第二分数;
[0025]确定所述待处理语料的第一分数和所述初步文本纠错语料的第二分数的分数差值,将不满足预设差别阈值的分数差值筛选出来,删除与其对应的初步文本纠错语料,并将剩余的初步文本纠错语料作为目标文本纠错语料。
[0026]在一可实施方式中,所述将原始语料进行预处理,得到待处理语料,包括:
[0027]通过正则表达式对所述原始语料进行处理,去除所述原始语料中的噪声语料数据,得到所述待处理语料。
[0028]根据本公开的第二方面,提供了一种文本纠错语料生成装置,其特征在于,所述装置包括:
[0029]语料生成模块,用于将原始语料进行预处理,得到待处理语料;
[0030]错误位置模块,用于获取所述待处理语料的实体信息,并根据所述待处理语料的实体信息确定所述待处理语料的多个错误位置;
[0031]初步语料生成模块,用于根据错误类型共存策略,在所述待处理语料的多个错误位置设置错误文本,以生成初步文本纠错语料;
[0032]目标语料生成模块,用于通过语言困惑模型过滤所述初步文本纠错语料,得到目标文本纠错语料。
[0033]在一可实施方式中,所述错误位置模块,具体用于:
[0034]获取所述待处理语料的实体词以及所述实体词的实体位置;
[0035]以词粒度作为分割单位,将所述待处理语料输入分词模型进行分割,得到具有分词结构的待处理语料;
[0036]设定预设错误频次,以避开所述实体词以及所述实体词的实体位置为原则,在所述具有分词结构的待处理语料中确定多个错误位置。
[0037]在一可实施方式中,初步语料生成模块,具体用于:
[0038]在基于同一句待处理语料中音相似错误和形相似错误不共存的前提下,按照预设错误类型比例,在所述待处理语料的多个错误位置设置相应的错误类型文本,以生成初步文本纠错语料;其中,所述音相似错误类型包括:“的地得”错误类型。
[0039]在一可实施方式中,初步语料生成模块,具体用于:
[0040]若所述错误类型为音相似错误类型,则基于音相似混淆数据集,在所述待处理语料的当前错误位置设置具有音相似错误类型的错误文本,其中,所述音相似混淆数据集为具有拼音内部的声母、韵母、以及声调相似读音的混淆数据集;或者,
[0041]若所述错误类型为形相似错误类型,则基于形相似混淆数据集,在所述待处理语料的当前错误位置设置具有形相似错误类型的错误文本,其中,所述形相似混淆数据集为具有形相近或者混淆字词的混淆数据集;或者,
[0042]若所述错误类型为颠倒错误类型,则通过设置邻词颠本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本纠错语料生成方法,其特征在于,所述方法包括:将原始语料进行预处理,得到待处理语料;获取所述待处理语料的实体信息,并根据所述待处理语料的实体信息确定所述待处理语料的多个错误位置;根据错误类型共存策略,在所述待处理语料的多个错误位置设置错误文本,以生成初步文本纠错语料;通过语言困惑模型过滤所述初步文本纠错语料,得到目标文本纠错语料。2.根据权利要求1所述的方法,其特征在于,所述获取所述待处理语料的实体信息,并根据所述待处理语料的实体信息确定所述待处理语料的多个错误位置,包括:获取所述待处理语料的实体词以及所述实体词的实体位置;以词粒度作为分割单位,将所述待处理语料输入分词模型进行分割,得到具有分词结构的待处理语料;设定预设错误频次,以避开所述实体词以及所述实体词的实体位置为原则,在所述具有分词结构的待处理语料中确定多个错误位置。3.根据权利要求2所述的方法,其中,所述错误类型包括:音相似错误类型、形相似错误类型、颠倒错误类型、多字错误类型以及少字错误类型,相应的,所述根据错误类型共存策略,在所述待处理语料的多个错误位置设置错误文本,以生成初步文本纠错语料,包括:在基于同一句待处理语料中音相似错误和形相似错误不共存的前提下,按照预设错误类型比例,在所述待处理语料的多个错误位置设置相应的错误类型文本,以生成初步文本纠错语料;其中,所述音相似错误类型包括:“的地得”错误类型。4.根据权利要求3所述的方法,其特征在于,在所述待处理语料的多个错误位置设置相应的错误类型文本,包括:若所述错误类型为音相似错误类型,则基于音相似混淆数据集,在所述待处理语料的当前错误位置设置具有音相似错误类型的错误文本,其中,所述音相似混淆数据集为具有拼音内部的声母、韵母、以及声调相似读音的混淆数据集;或者,若所述错误类型为形相似错误类型,则基于形相似混淆数据集,在所述待处理语料的当前错误位置设置具有形相似错误类型的错误文本,其中,所述形相似混淆数据集为具有形相近或者混淆字词的混淆数据集;或者,若所述错误类型为颠倒错误类型,则通过设置邻词颠倒与单字颠倒的预设颠倒比例,以及预设颠倒词范围长度,在所述待处理语料的当前错误位置设置具有颠倒错误类型的错误文本;或者,若所述错误类型为多字错误类型,则通过设置与当前错误位置中的边缘字进行成词以及随机插字的预设多字比例,在当前错误位置的相邻位置设置具有多字错误类型的错误文本;或者,若所述错误类型为少字错误类型,则通过在当前错误位置的文本中随机删...

【专利技术属性】
技术研发人员:王亭李志飞
申请(专利权)人:出门问问创新科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1