用于模型训练的错句生成方法、装置、计算机设备及介质制造方法及图纸

技术编号：38253315 阅读：9 留言：0更新日期：2023-07-27 10:18

本发明专利技术涉及人工智能技术领域，尤其涉及一种用于模型训练的错句生成方法、装置、计算机设备及介质。该方法将待处理文本的词项数量映射为调整数量，从待处理文本中采样得到目标词项，对目标词项进行调整，得到扩增文本，对待处理文本遮挡后，输入重构模型中得到重构文本，根据待处理文本、扩增文本和重构文本，训练生成模型，将实时文本输入训练好的生成模型，得到生成的错句文本，以多类数据增强方法对待处理文本进行处理，得到包含丰富错误类型的文本作为标签，训练端到端的生成模型，使得可以直接将实时文本输入训练好的生成模型，得到生成的错句文本，无需频繁切换数据增强方式，在保证生成错句质量较高的情况下，极大地提高了错句生成效率。句生成效率。句生成效率。

全部详细技术资料下载

【技术实现步骤摘要】
用于模型训练的错句生成方法、装置、计算机设备及介质

[0001]本专利技术涉及人工智能
，尤其涉及一种用于模型训练的错句生成方法、装置、计算机设备及介质。

技术介绍

[0002]目前，基于神经网络的文本识别模型，通常需要大量的带有标签的文本数据，但此类文本数据的获取成本和标注成本都较高，因此，现有方法通常采用数据增强方法进行文本数据的扩充。
[0003]但是，不同数据增强方法生成的文本数据的错误类型、错误质量都不相同，如果需要获取错误类型丰富且错误质量较高的文本数据，需要多种数据增强方法并行执行，导致数据增强的处理过程繁琐，且基于多类数据增强方法融合的数据增强策略，难以快速迁移和部署。因此，如何在保证生成错句质量较高的情况下，提高错句生成效率成为亟待解决的问题。

技术实现思路

[0004]有鉴于此，本专利技术实施例提供了一种用于模型训练的错句生成方法、装置、计算机设备及介质，以解决在保证生成错句质量较高的情况下，错句生成的效率较低的问题。
[0005]第一方面，本专利技术实施例提供一种用于模型训练的错句生成方法，所述错句生成方法包括：
[0006]对待处理文本进行分词处理，得到至少两个词项，对所有词项进行统计，得到词项数量，采用预设的映射函数将所述词项数量映射为调整数量；
[0007]对所有词项进行N次采样，得到N个目标词项，针对任一目标词项，采用预设的调整策略在所述待处理文本中对所述目标词项进行调整，得到扩增文本，N为所述调整数量；
[0008]采用预设...

【技术保护点】

【技术特征摘要】
1.一种用于模型训练的错句生成方法，其特征在于，所述错句生成方法包括：对待处理文本进行分词处理，得到至少两个词项，对所有词项进行统计，得到词项数量，采用预设的映射函数将所述词项数量映射为调整数量；对所有词项进行N次采样，得到N个目标词项，针对任一目标词项，采用预设的调整策略在所述待处理文本中对所述目标词项进行调整，得到扩增文本，N为所述调整数量；采用预设滑窗对所述待处理文本进行遮挡，将遮挡后的待处理文本输入训练好的重构模型中进行重构，得到重构文本；根据所述待处理文本、所述扩增文本和所述重构文本，训练所述生成模型，得到训练好的生成模型；将获取的实时文本输入所述训练好的生成模型，得到生成的错句文本。2.根据权利要求1所述的错句生成方法，其特征在于，所述对所有词项进行N次采样，得到N个目标词项包括：针对任一词项，获取所述词项在所述待处理文本中的位置，根据所述位置为所述词项分配序号，得到序号序列，所述序号序列包括M个序号，M为所述词项数量；在所述序号序列中，进行N次随机数生成，得到N个生成数，确定N个对应所述生成数的词项为所述N个目标词项。3.根据权利要求1所述的错句生成方法，其特征在于，所述针对任一目标词项，采用预设的调整策略在所述待处理文本中对所述目标词项进行调整，得到扩增文本包括：针对任一目标词项，对预设的调整策略集合进行采样，得到采样结果；采用所述采样结果在所述待处理文本中对所述目标词项进行调整，得到所述扩增文本。4.根据权利要求3所述的错句生成方法，其特征在于，所述调整策略集合包括删除策略、替换策略和插入策略；所述对预设的调整策略集合进行采样，得到采样到的调整策略包括：对所述删除策略、所述替换策略和所述插入策略进行等概率采样，得到所述采样结果；相应地，所述采用所述采样结果在所述待处理文本中对所述目标词项进行调整，得到扩增文本包括：若所述采样结果为所述删除策略，在所述待处理文本中将所述目标词项删除，得到所述扩增文本；若所述采样结果为所述替换策略，在所述待处理文本中将所述目标词项替换为预设的第一词项，得到所述扩增文本；若所述采样结果为所述插入策略，在所述待处理文本中在所述目标词项之后插入预设的第二词项，得到所述扩增文本。5.根据权利要求1所述的错句生成方法，其特征在于，所述采用预设滑窗对所述待处理文本进行遮挡包括：将所述预设滑窗的首元素与所述待处理文本的第一个词项对齐，根据随机游走算法，将所述预设滑窗在所述待处理文本上移动，得到目标滑窗；将所述目标滑窗与其在所...

【专利技术属性】
技术研发人员：李志韬，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人