用于模型训练的错句生成方法、装置、计算机设备及介质制造方法及图纸

技术编号:38253315 阅读:9 留言:0更新日期:2023-07-27 10:18
本发明专利技术涉及人工智能技术领域,尤其涉及一种用于模型训练的错句生成方法、装置、计算机设备及介质。该方法将待处理文本的词项数量映射为调整数量,从待处理文本中采样得到目标词项,对目标词项进行调整,得到扩增文本,对待处理文本遮挡后,输入重构模型中得到重构文本,根据待处理文本、扩增文本和重构文本,训练生成模型,将实时文本输入训练好的生成模型,得到生成的错句文本,以多类数据增强方法对待处理文本进行处理,得到包含丰富错误类型的文本作为标签,训练端到端的生成模型,使得可以直接将实时文本输入训练好的生成模型,得到生成的错句文本,无需频繁切换数据增强方式,在保证生成错句质量较高的情况下,极大地提高了错句生成效率。句生成效率。句生成效率。

【技术实现步骤摘要】
用于模型训练的错句生成方法、装置、计算机设备及介质


[0001]本专利技术涉及人工智能
,尤其涉及一种用于模型训练的错句生成方法、装置、计算机设备及介质。

技术介绍

[0002]目前,基于神经网络的文本识别模型,通常需要大量的带有标签的文本数据,但此类文本数据的获取成本和标注成本都较高,因此,现有方法通常采用数据增强方法进行文本数据的扩充。
[0003]但是,不同数据增强方法生成的文本数据的错误类型、错误质量都不相同,如果需要获取错误类型丰富且错误质量较高的文本数据,需要多种数据增强方法并行执行,导致数据增强的处理过程繁琐,且基于多类数据增强方法融合的数据增强策略,难以快速迁移和部署。因此,如何在保证生成错句质量较高的情况下,提高错句生成效率成为亟待解决的问题。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供了一种用于模型训练的错句生成方法、装置、计算机设备及介质,以解决在保证生成错句质量较高的情况下,错句生成的效率较低的问题。
[0005]第一方面,本专利技术实施例提供一种用于模型训练的错句生成方法,所述错句生成方法包括:
[0006]对待处理文本进行分词处理,得到至少两个词项,对所有词项进行统计,得到词项数量,采用预设的映射函数将所述词项数量映射为调整数量;
[0007]对所有词项进行N次采样,得到N个目标词项,针对任一目标词项,采用预设的调整策略在所述待处理文本中对所述目标词项进行调整,得到扩增文本,N为所述调整数量;
[0008]采用预设滑窗对所述待处理文本进行遮挡,将遮挡后的待处理文本输入训练好的重构模型中进行重构,得到重构文本;
[0009]根据所述待处理文本、所述扩增文本和所述重构文本,训练所述生成模型,得到训练好的生成模型;
[0010]将获取的实时文本输入所述训练好的生成模型,得到生成的错句文本。
[0011]第二方面,本专利技术实施例提供一种用于模型训练的错句生成装置,所述错句生成装置包括:
[0012]文本分词模块,用于对待处理文本进行分词处理,得到至少两个词项,对所有词项进行统计,得到词项数量,采用预设的映射函数将所述词项数量映射为调整数量;
[0013]文本扩增模块,用于对所有词项进行N次采样,得到N个目标词项,针对任一目标词项,采用预设的调整策略在所述待处理文本中对所述目标词项进行调整,得到扩增文本,N为所述调整数量;
[0014]文本重构模块,用于采用预设滑窗对所述待处理文本进行遮挡,将遮挡后的待处
理文本输入训练好的重构模型中进行重构,得到重构文本;
[0015]模型训练模块,用于根据所述待处理文本、所述扩增文本和所述重构文本,训练所述生成模型,得到训练好的生成模型;
[0016]错句生成模块,用于将获取的实时文本输入所述训练好的生成模型,得到生成的错句文本。
[0017]第三方面,本专利技术实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的错句生成方法。
[0018]第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的错句生成方法。
[0019]本专利技术实施例与现有技术相比存在的有益效果是:
[0020]对待处理文本进行分词处理,得到至少两个词项,对所有词项进行统计,得到词项数量,采用预设的映射函数将词项数量映射为调整数量,对所有词项进行N次采样,得到N个目标词项,针对任一目标词项,采用预设的调整策略在待处理文本中对目标词项进行调整,得到扩增文本,采用预设滑窗对待处理文本进行遮挡,将遮挡后的待处理文本输入训练好的重构模型中进行重构,得到重构文本,根据待处理文本、扩增文本和重构文本,训练生成模型,得到训练好的生成模型,将获取的实时文本输入训练好的生成模型,得到生成的错句文本,以多类数据增强方法对待处理文本进行处理,得到包含丰富错误类型的生成模型标签,并基于生成模型标签训练端到端的生成模型,使得可以直接将实时文本输入采用训练好的生成模型,得到生成的错句文本,无需频繁切换数据增强方式,在保证生成错句质量较高的情况下,极大地提高了错句生成效率。
附图说明
[0021]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0022]图1是本专利技术实施例一提供的一种用于模型训练的错句生成方法的一应用环境示意图;
[0023]图2是本专利技术实施例一提供的一种用于模型训练的错句生成方法的流程示意图;
[0024]图3是本专利技术实施例二提供的一种用于模型训练的错句生成方法的流程示意图;
[0025]图4是本专利技术实施例三提供的一种用于模型训练的错句生成装置的结构示意图;
[0026]图5是本专利技术实施例四提供的一种计算机设备的结构示意图。
具体实施方式
[0027]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电
路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。
[0028]应当理解,当在本专利技术说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0029]还应当理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0030]如在本专利技术说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0031]另外,在本专利技术说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0032]在本专利技术说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本专利技术的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于模型训练的错句生成方法,其特征在于,所述错句生成方法包括:对待处理文本进行分词处理,得到至少两个词项,对所有词项进行统计,得到词项数量,采用预设的映射函数将所述词项数量映射为调整数量;对所有词项进行N次采样,得到N个目标词项,针对任一目标词项,采用预设的调整策略在所述待处理文本中对所述目标词项进行调整,得到扩增文本,N为所述调整数量;采用预设滑窗对所述待处理文本进行遮挡,将遮挡后的待处理文本输入训练好的重构模型中进行重构,得到重构文本;根据所述待处理文本、所述扩增文本和所述重构文本,训练所述生成模型,得到训练好的生成模型;将获取的实时文本输入所述训练好的生成模型,得到生成的错句文本。2.根据权利要求1所述的错句生成方法,其特征在于,所述对所有词项进行N次采样,得到N个目标词项包括:针对任一词项,获取所述词项在所述待处理文本中的位置,根据所述位置为所述词项分配序号,得到序号序列,所述序号序列包括M个序号,M为所述词项数量;在所述序号序列中,进行N次随机数生成,得到N个生成数,确定N个对应所述生成数的词项为所述N个目标词项。3.根据权利要求1所述的错句生成方法,其特征在于,所述针对任一目标词项,采用预设的调整策略在所述待处理文本中对所述目标词项进行调整,得到扩增文本包括:针对任一目标词项,对预设的调整策略集合进行采样,得到采样结果;采用所述采样结果在所述待处理文本中对所述目标词项进行调整,得到所述扩增文本。4.根据权利要求3所述的错句生成方法,其特征在于,所述调整策略集合包括删除策略、替换策略和插入策略;所述对预设的调整策略集合进行采样,得到采样到的调整策略包括:对所述删除策略、所述替换策略和所述插入策略进行等概率采样,得到所述采样结果;相应地,所述采用所述采样结果在所述待处理文本中对所述目标词项进行调整,得到扩增文本包括:若所述采样结果为所述删除策略,在所述待处理文本中将所述目标词项删除,得到所述扩增文本;若所述采样结果为所述替换策略,在所述待处理文本中将所述目标词项替换为预设的第一词项,得到所述扩增文本;若所述采样结果为所述插入策略,在所述待处理文本中在所述目标词项之后插入预设的第二词项,得到所述扩增文本。5.根据权利要求1所述的错句生成方法,其特征在于,所述采用预设滑窗对所述待处理文本进行遮挡包括:将所述预设滑窗的首元素与所述待处理文本的第一个词项对齐,根据随机游走算法,将所述预设滑窗在所述待处理文本上移动,得到目标滑窗;将所述目标滑窗与其在所...

【专利技术属性】
技术研发人员:李志韬王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1