基于对文本进行破坏处理的文本数据增强方法及装置制造方法及图纸

技术编号:37590105 阅读:17 留言:0更新日期:2023-05-18 11:19
本公开涉及文本处理技术领域,提供了一种基于对文本进行破坏处理的文本数据增强方法及装置。该方法包括:构建文本扩散模型,其中,文本扩散模型包括前向模块和反向模块,前向模块是根据多种破坏处理构建的,反向模块是进行模型训练得到的,前向模块和反向模块实现相反的操作;利用文本扩散模型的前向模块将文本数据集中的原始文本转换为文本向量,并通过对文本向量连续多次进行破坏处理,得到原始文本对应的破坏向量;利用文本扩散模型的反向模块对破坏向量连续多次进行恢复处理,得到原始文本对应的还原向量,并将还原向量转换为文本格式,得到原始文本对应的还原文本;利用原始文本和还原文本生成数据增强后的文本数据集。本和还原文本生成数据增强后的文本数据集。本和还原文本生成数据增强后的文本数据集。

【技术实现步骤摘要】
基于对文本进行破坏处理的文本数据增强方法及装置


[0001]本公开涉及文本处理
,尤其涉及一种基于对文本进行破坏处理的文本数据增强方法及装置。

技术介绍

[0002]在使用机器学习模型进行自然语言理解相关任务训练时,一直收到标注语料不足问题的困扰,尤其在深度学习时代,对语料数量的需求更加迫切。但很多时候,并不能及时获得足够的语料进行训练,这就对文本的数据增强提出了较高的需求。所谓的数据增强,就是利用已有数据,采用某些方式,构造出和已有数据尽可能相似的同一类型的人造数据,这些人造数据尽可能和原有数据相似,又不能完全相同,这样在使用这些数据进行训练时,才能够模型训练产生正向效果,提升模型精度,减少模型过拟合。现有的基于对文本进行破坏处理的文本数据增强方法大致可以分为两种。第一种方法是利用规则对原始文本进行一些改变,从而产生新的样本,这种修改往往造成增强出来的新句子语义不通顺,或已经偏离原句语义很多,从而影响增强的效果。第二种方法是通过自回归的方式训练一个语言模型,使用训练好的语言模型进行数据增强,但是自回归的训练方法局限了模型对文本的理解能力,模型始终只能看到文本的前半部分,而不能从全文的视角理解文本中的内容。
[0003]在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下技术问题:传统数据增强方法得到的文本偏离原文本的问题。

技术实现思路

[0004]有鉴于此,本公开实施例提供了一种基于对文本进行破坏处理的文本数据增强方法、装置、电子设备及计算机可读存储介质,以解决现有技术中,传统数据增强方法得到的文本偏离原文本的问题。
[0005]本公开实施例的第一方面,提供了一种基于对文本进行破坏处理的文本数据增强方法,包括:获取待数据增强的文本数据集;构建文本扩散模型,其中,文本扩散模型包括前向模块和反向模块,前向模块是根据多种破坏处理构建的,反向模块是进行模型训练得到的,前向模块和反向模块实现相反的操作;利用文本扩散模型的前向模块将文本数据集中的原始文本转换为文本向量,并通过对文本向量连续多次进行破坏处理,得到原始文本对应的破坏向量;利用文本扩散模型的反向模块对破坏向量连续多次进行恢复处理,得到原始文本对应的还原向量,并将还原向量转换为文本格式,得到原始文本对应的还原文本,其中,每次的恢复处理均对应一次破坏处理,并且彼此对应的恢复处理和破坏处理互为逆过程;利用原始文本和还原文本生成数据增强后的文本数据集。
[0006]本公开实施例的第二方面,提供了一种基于对文本进行破坏处理的文本数据增强装置,包括:获取模块,被配置为获取待数据增强的文本数据集;构建模块,被配置为构建文本扩散模型,其中,文本扩散模型包括前向模块和反向模块,前向模块是根据多种破坏处理构建的,反向模块是进行模型训练得到的,前向模块和反向模块实现相反的操作;破坏模
块,被配置为利用文本扩散模型的前向模块将文本数据集中的原始文本转换为文本向量,并通过对文本向量连续多次进行破坏处理,得到原始文本对应的破坏向量;还原模块,被配置为利用文本扩散模型的反向模块对破坏向量连续多次进行恢复处理,得到原始文本对应的还原向量,并将还原向量转换为文本格式,得到原始文本对应的还原文本,其中,每次的恢复处理均对应一次破坏处理,并且彼此对应的恢复处理和破坏处理互为逆过程;生成模块,被配置为利用原始文本和还原文本生成数据增强后的文本数据集。
[0007]本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
[0008]本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
[0009]本公开实施例与现有技术相比存在的有益效果是:因为本公开实施例通过获取待数据增强的文本数据集;构建文本扩散模型,其中,文本扩散模型包括前向模块和反向模块,前向模块是根据多种破坏处理构建的,反向模块是进行模型训练得到的,前向模块和反向模块实现相反的操作;利用文本扩散模型的前向模块将文本数据集中的原始文本转换为文本向量,并通过对文本向量连续多次进行破坏处理,得到原始文本对应的破坏向量;利用文本扩散模型的反向模块对破坏向量连续多次进行恢复处理,得到原始文本对应的还原向量,并将还原向量转换为文本格式,得到原始文本对应的还原文本,其中,每次的恢复处理均对应一次破坏处理,并且彼此对应的恢复处理和破坏处理互为逆过程;利用原始文本和还原文本生成数据增强后的文本数据集,因此,采用上述技术手段,可以解决现有技术中,传统数据增强方法得到的文本偏离原文本的问题,进而使得数据增强方法得到的文本符合原文本的文本数据分布。
附图说明
[0010]为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0011]图1是本公开实施例的应用场景的场景示意图;图2是本公开实施例提供的一种基于对文本进行破坏处理的文本数据增强方法的流程示意图;图3是本公开实施例提供的一种基于对文本进行破坏处理的文本数据增强装置的结构示意图;图4是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
[0012]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电
路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
[0013]下面将结合附图详细说明根据本公开实施例的一种基于对文本进行破坏处理的文本数据增强方法和装置。
[0014]图1是本公开实施例的应用场景的场景示意图。该应用场景可以包括终端设备101、102和103、服务器104以及网络105。
[0015]终端设备101、102和103可以是硬件,也可以是软件。当终端设备101、102和103为硬件时,其可以是具有显示屏且支持与服务器104通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等;当终端设备101、102和103为软件时,其可以安装在如上的电子设备中。终端设备101、102和103可以实现为多个软件或软件模块,也可以实现为单个软件或软件模块,本公开实施例对此不作限制。进一步地,终端设备101、102和103上可以安装有各种应用,例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。
[0016]服务器104可以是提供各种服务的服务器,例如,对与其建立通信连接的终端设备发送的请求进行接收的后台服务器,该后台服务器可以对终端设备发送的请求进行接收和分析等处理,并生成处本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对文本进行破坏处理的文本数据增强方法,其特征在于,包括:获取待数据增强的文本数据集;构建文本扩散模型,其中,所述文本扩散模型包括前向模块和反向模块,所述前向模块是根据多种破坏处理构建的,所述反向模块是进行模型训练得到的,所述前向模块和所述反向模块实现相反的操作;利用所述文本扩散模型的前向模块将所述文本数据集中的原始文本转换为文本向量,并通过对所述文本向量连续多次进行破坏处理,得到所述原始文本对应的破坏向量;利用所述文本扩散模型的反向模块对所述破坏向量连续多次进行恢复处理,得到所述原始文本对应的还原向量,并将所述还原向量转换为文本格式,得到所述原始文本对应的还原文本,其中,每次的所述恢复处理均对应一次所述破坏处理,并且彼此对应的所述恢复处理和所述破坏处理互为逆过程;利用所述原始文本和所述还原文本生成所述数据增强后的文本数据集。2.根据权利要求1所述的方法,其特征在于,所述破坏处理,包括:池化操作、模糊操作和遮掩操作。3.根据权利要求1所述的方法,其特征在于,包括:利用所述前向模块将所述原始文本转换为所述文本向量:对所述原始文本进行热独编码处理,得到第一编码矩阵,利用词嵌入矩阵将所述第一编码矩阵映射为文本向量,得到所述文本向量;利用所述反向模块将所述还原向量转换为文本格式,得到所述还原文本:根据所述词嵌入矩阵将所述还原向量映射得到第二编码矩阵;对所述第二编码矩阵进行热独解码处理,得到所述还原文本,其中,所述热独解码处理是所述热独编码处理的逆过程。4.根据权利要求1所述的方法,其特征在于,利用所述文本扩散模型的反向模块对所述破坏向量连续多次进行恢复处理,得到所述原始文本对应的还原向量,并将所述还原向量转换为文本格式,得到所述原始文本对应的还原文本之前,所述方法还包括:获取训练数据集,利用所述训练数据集对目标模型进行训练,使得所述目标模型可以确定并执行所述前向模块对所述训练数据集中的训练文本进行的所述破坏处理所对应的所述恢复处理,所述目标模型为U

Net模型、ResNet模型或者transformer模型;将训练好的所述目标模型后接将向量转换为文本的算法,得到所述反向模块。5.根据权利要求1所述的方法,其特征在于,所述获取待数据增强的图像数据集之后,所述方法还包括:利用所述前向模块连续多次对所述文本向量进行破坏处理以及添加噪声,得到所述破坏向量;利用所述反向模块中的目标模型确定所述前向模块每次对所述文本向量进行的所述破坏处理以及添加的噪声,并连续多次对所述破坏向量进行所述破坏处理对应的所述恢复处理以及去...

【专利技术属性】
技术研发人员:徐琳王芳暴宇健
申请(专利权)人:北京龙智数科科技服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1