文本数据增强方法及装置制造方法及图纸

技术编号：37584301 阅读：19 留言：0更新日期：2023-05-15 07:57

本公开涉及文本处理技术领域，提供了一种文本数据增强方法及装置。该方法包括：获取文本语料集，其中，文本数据集包括多条文本语料；利用文本扩散模型的扩散过程将每条文本语料转换为文本向量，并通过为每条文本向量连续多次添加噪声，得到每条文本语料对应的第一目标噪声向量；利用文本扩散模型的逆扩散过程预测在扩散过程中添加的多个噪声，并使用每条文本语料对应的第一目标噪声向量依次除去预测的多个噪声，得到每条文本语料对应的还原后的文本向量；将每条文本语料对应的还原后的文本向量转换为文本，得到每条文本语料对应的第一数据增强文本。采用上述技术手段，解决现有技术中，传统数据增强方法得到的文本偏离原文本的问题。问题。问题。

全部详细技术资料下载

【技术实现步骤摘要】
文本数据增强方法及装置

[0001]本公开涉及文本处理
，尤其涉及一种文本数据增强方法及装置。

技术介绍

[0002]在使用机器学习模型进行自然语言理解相关任务训练时，一直收到标注语料不足问题的困扰，尤其在深度学习时代，对语料数量的需求更加迫切。但很多时候，并不能及时获得足够的语料进行训练，这就对文本的数据增强提出了较高的需求。所谓的数据增强，就是利用已有数据，采用某些方式，构造出和已有数据尽可能相似的同一类型的人造数据，这些人造数据尽可能和原有数据相似，又不能完全相同，这样在使用这些数据进行训练时，才能够模型训练产生正向效果，提升模型精度，减少模型过拟合。现有的文本数据增强方法大致可以分为两种。第一种方法是利用规则对原始文本进行一些改变，从而产生新的样本，这种修改往往造成增强出来的新句子语义不通顺，或已经偏离原句语义很多，从而影响增强的效果。第二种方法是通过自回归的方式训练一个语言模型，使用训练好的语言模型进行数据增强，但是自回归的训练方法局限了模型对文本的理解能力，模型始终只能看到文本的前半部分，而不能从全文的视角理解文本中的内容。
[0003]在实现本公开构思的过程中，专利技术人发现相关技术中至少存在如下技术问题：传统数据增强方法得到的文本偏离原文本的问题。

技术实现思路

[0004]有鉴于此，本公开实施例提供了一种文本数据增强方法、装置、电子设备及计算机可读存储介质，以解决现有技术中，传统数据增强方法得到的文本偏离原文本的问题。
[0005]本公开实施例的第一方面，提供了...

【技术保护点】

【技术特征摘要】
1.一种文本数据增强方法，其特征在于，包括：获取文本语料集，其中，所述文本数据集包括多条文本语料；利用文本扩散模型的扩散过程将每条文本语料转换为文本向量，并通过为每条文本向量连续多次添加噪声，得到每条文本语料对应的第一目标噪声向量；利用所述文本扩散模型的逆扩散过程预测在所述扩散过程中添加的多个噪声，并使用每条文本语料对应的第一目标噪声向量依次除去预测的多个噪声，得到每条文本语料对应的还原后的文本向量；将每条文本语料对应的还原后的文本向量转换为文本，得到每条文本语料对应的第一数据增强文本。2.根据权利要求1所述的方法，其特征在于，利用文本扩散模型的扩散过程将每条文本语料转换为文本向量，包括：对每条文本语料进行热独编码处理，得到每条文本语料对应的第一编码矩阵；利用词嵌入矩阵将每条文本语料对应的第一编码矩阵映射为文本向量，得到每条文本语料对应的文本向量。3.根据权利要求1所述的方法，其特征在于，所述通过为每条文本向量连续多次添加噪声，得到每条文本语料对应的第一目标噪声向量，包括：通过以下方式计算每次添加噪声后的每条文本向量：基于上一次添加噪声后的每条文本向量和上一次采样得到的基础噪声，通过噪声计算公式计算得到本次添加噪声后的每条文本向量，其中，上一次采样得到的基础噪声是上一次添加噪声时从高斯噪声中采样得到的，所述高斯噪声为满足高斯分布的噪声。4.根据权利要求3所述的方法，其特征在于，噪声计算公式为：x
t
是第t次添加噪声后的每条文本向量，x
t
‑1是第t
‑
1次添加噪声后的每条文本向量，β
t
为常数，β
t
取值范围在0～1之间，∈
t
‑1是第t
‑
1次采样得到的基础噪声，当t等于1时，x0是每条文本向量，当添加噪声的次数为N，x
N
是每条文本语料对应的第一目标噪声向量。5.根据权利要求1所述的方法，其特征在于，包括：通过使用所述文本扩散模型处理每条文本语料的次数，控制每条文本语料对应的第一数据增强文本的数量。6.根据权利要求1所述的方法，其特征在于，将每条文本语料对应的还原后的文本向量转换为文本，得到每条文本语料对应的第一数据增强文本，包括：根据词嵌入矩阵，将每条文本语料对应的还原后...

【专利技术属性】
技术研发人员：请求不公布姓名，
申请(专利权)人：深圳须弥云图空间科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人