一种语料数据增强方法及设备技术

技术编号：39777321 阅读：9 留言：0更新日期：2023-12-22 02:23

本申请涉及自然语言处理技术领域，尤其涉及一种语料数据增强方法及设备，在本申请实施例中，电子设备通过获取用户配置的待处理的第一文本对应的必要字节，对第一文本进行标注，使得语言模型在进行语料数据增强时可以对第一文本中除必要字节外的其他字节，进行语料数据增强，实现了在语料数据增强的同时，增强后得到的第二文本中仍然会包含第一文本中的必要字节，实现了增强后的文本与输入的文本的一致性，提高了语料数据增强的效果

全部详细技术资料下载

【技术实现步骤摘要】
一种语料数据增强方法及设备

[0001]本申请涉及自然语言处理
，尤其涉及一种语料数据增强方法及设备
。

技术介绍

[0002]在自然语言处理方面的语料数据增强中，有着传统的文本分类任务的简易数据扩充
(Easy Data Augmentation for Text Classification Tasks
，
EDA)
方法，例如同义词替换
、
随机替换
、
随机插入
、
随机删除；也有着根据基于
transformer
构建的双向语义编码表征模型
(Bidirectional Encoder Representations from Transformers
，
BERT)
等基于深度学习的语料数据增强方法
。
[0003]然而传统
EDA
方法在进行同义词替换
、
随机替换等替换时，容易对输入的文本中的重要内容进行替换，导致生成的文本不连贯，或失去了句子原本的意思
。
而在使用
BERT
进行语料数据增强时，可以产生大量的文本，但是同样也无法保证输入的文本中的重要内容仍然保留在生成的文本中
。
也就是说，现有的语料数据增强方法难以保证增强后的文本与输入的文本的一致性
。

技术实现思路

[0004]本申请提供了一种语料数据增强方法及设备，用以解决现有技术的...

【技术保护点】

【技术特征摘要】
1.
一种语料数据增强方法，其特征在于，所述方法包括：获取待处理的第一文本中包含的必要字节，并在所述第一文本中对所述必要字节进行标注；其中，所述必要字节为用户配置的；将标注好的第一文本输入到语言模型中，使得所述语言模型对所述标注好的第一文本中除所述必要字节外的其他字节进行语料数据增强；获取所述语言模型输出的增强后的第二文本
。2.
根据权利要求1所述的方法，其特征在于，所述语言模型对所述标注好的第一文本进行语料数据增强包括：所述语言模型的生成器对所述标注好的第一文本中除所述必要字节外的其他字节进行遮掩
Mask
操作，并对所述
Mask
操作后的第一文本中被
Mask
的目标字节进行替换，得到候选文本；其中所述候选文本用于确定所述增强后的第二文本
。3.
根据权利要求2所述的方法，其特征在于，所述语言模型的生成器对所述标注好的第一文本中除所述必要字节外的其他字节进行遮掩
Mask
操作包括：所述生成器根据预先配置的关键信息抽取算法，识别所述第一文本中包含的关键字节；对所述第一文本中除所述必要字节和所述关键字节外的其他字节进行
Mask
操作
。4.
根据权利要求2所述的方法，其特征在于，所述获取所述语言模型输出的增强后的第二文本包括：获取所述语言模型的生成器直接输出的作为所述第二文本的所述候选文本
。5.
根据权利要求2所述的方法，其特征在于，所述获取所述语言模型输出的增强后的第二文本包括：所述语言模型的判别器确定所述候选文本与所述第一文本的相似度；若所述相似度超过预设的相似度阈值，则所述判别器将所述候选文本确定为所...

【专利技术属性】
技术研发人员：宋骋，陈维强，刘微，孟卫明，杜兆臣，刘敏，
申请(专利权)人：海信集团控股股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人