基于对文本进行破坏处理的文本数据增强方法及装置制造方法及图纸

技术编号：37590105 阅读：17 留言：0更新日期：2023-05-18 11:19

本公开涉及文本处理技术领域，提供了一种基于对文本进行破坏处理的文本数据增强方法及装置。该方法包括：构建文本扩散模型，其中，文本扩散模型包括前向模块和反向模块，前向模块是根据多种破坏处理构建的，反向模块是进行模型训练得到的，前向模块和反向模块实现相反的操作；利用文本扩散模型的前向模块将文本数据集中的原始文本转换为文本向量，并通过对文本向量连续多次进行破坏处理，得到原始文本对应的破坏向量；利用文本扩散模型的反向模块对破坏向量连续多次进行恢复处理，得到原始文本对应的还原向量，并将还原向量转换为文本格式，得到原始文本对应的还原文本；利用原始文本和还原文本生成数据增强后的文本数据集。本和还原文本生成数据增强后的文本数据集。本和还原文本生成数据增强后的文本数据集。

全部详细技术资料下载

【技术实现步骤摘要】
基于对文本进行破坏处理的文本数据增强方法及装置

[0001]本公开涉及文本处理
，尤其涉及一种基于对文本进行破坏处理的文本数据增强方法及装置。

技术介绍

[0002]在使用机器学习模型进行自然语言理解相关任务训练时，一直收到标注语料不足问题的困扰，尤其在深度学习时代，对语料数量的需求更加迫切。但很多时候，并不能及时获得足够的语料进行训练，这就对文本的数据增强提出了较高的需求。所谓的数据增强，就是利用已有数据，采用某些方式，构造出和已有数据尽可能相似的同一类型的人造数据，这些人造数据尽可能和原有数据相似，又不能完全相同，这样在使用这些数据进行训练时，才能够模型训练产生正向效果，提升模型精度，减少模型过拟合。现有的基于对文本进行破坏处理的文本数据增强方法大致可以分为两种。第一种方法是利用规则对原始文本进行一些改变，从而产生新的样本，这种修改往往造成增强出来的新句子语义不通顺，或已经偏离原句语义很多，从而影响增强的效果。第二种方法是通过自回归的方式训练一个语言模型，使用训练好的语言模型进行数据增强，但是自回归的训练方法局限了模型对文本的理解能力，模型始终只能看到文本的前半部分，而不能从全文的视角理解文本中的内容。
[0003]在实现本公开构思的过程中，专利技术人发现相关技术中至少存在如下技术问题：传统数据增强方法得到的文本偏离原文本的问题。

技术实现思路

[0004]有鉴于此，本公开实施例提供了一种基于对文本进行破坏处理的文本数据增强方法、装置、电子设备及计算机可读存储介质，以解决现有技术中，...

【技术保护点】

【技术特征摘要】
1.一种基于对文本进行破坏处理的文本数据增强方法，其特征在于，包括：获取待数据增强的文本数据集；构建文本扩散模型，其中，所述文本扩散模型包括前向模块和反向模块，所述前向模块是根据多种破坏处理构建的，所述反向模块是进行模型训练得到的，所述前向模块和所述反向模块实现相反的操作；利用所述文本扩散模型的前向模块将所述文本数据集中的原始文本转换为文本向量，并通过对所述文本向量连续多次进行破坏处理，得到所述原始文本对应的破坏向量；利用所述文本扩散模型的反向模块对所述破坏向量连续多次进行恢复处理，得到所述原始文本对应的还原向量，并将所述还原向量转换为文本格式，得到所述原始文本对应的还原文本，其中，每次的所述恢复处理均对应一次所述破坏处理，并且彼此对应的所述恢复处理和所述破坏处理互为逆过程；利用所述原始文本和所述还原文本生成所述数据增强后的文本数据集。2.根据权利要求1所述的方法，其特征在于，所述破坏处理，包括：池化操作、模糊操作和遮掩操作。3.根据权利要求1所述的方法，其特征在于，包括：利用所述前向模块将所述原始文本转换为所述文本向量：对所述原始文本进行热独编码处理，得到第一编码矩阵，利用词嵌入矩阵将所述第一编码矩阵映射为文本向量，得到所述文本向量；利用所述反向模块将所述还原向量转换为文本格式，得到所述还原文本：根据所述词嵌入矩阵将所述还原向量映射得到第二编码矩阵；对所述第二编码矩阵进行热独解码处理，得到所述还原文本，其中，所述热独解码处理是所述热独编码处理的逆过程。4.根据权利要求1所述的方法，其特征在于，利用所述文本扩散模型的反向模块对所述破坏向量连续多次进行恢复处理，得到所述原始文本对应的还原向量，并将所述还原向量转换为文本格式，得到所述原始文本对应的还原文本之前，所述方法还包括：获取训练数据集，利用所述训练数据集对目标模型进行训练，使得所述目标模型可以确定并执行所述前向模块对所述训练数据集中的训练文本进行的所述破坏处理所对应的所述恢复处理，所述目标模型为U
‑
Net模型、ResNet模型或者transformer模型；将训练好的所述目标模型后接将向量转换为文本的算法，得到所述反向模块。5.根据权利要求1所述的方法，其特征在于，所述获取待数据增强的图像数据集之后，所述方法还包括：利用所述前向模块连续多次对所述文本向量进行破坏处理以及添加噪声，得到所述破坏向量；利用所述反向模块中的目标模型确定所述前向模块每次对所述文本向量进行的所述破坏处理以及添加的噪声，并连续多次对所述破坏向量进行所述破坏处理对应的所述恢复处理以及去...

【专利技术属性】
技术研发人员：徐琳，王芳，暴宇健，
申请(专利权)人：北京龙智数科科技服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人