文本数据增强方法、装置、电子设备及存储介质制造方法及图纸

技术编号：38006678 阅读：9 留言：0更新日期：2023-06-30 10:23

本发明专利技术提供一种文本数据增强方法、装置、电子设备及存储介质，涉及自然语言处理技术领域，该方法包括：获取带标签的第一文本集；基于训练好的预训练模型，确定第一文本集中的每个第一文本中的多个重点词，并从第一文本集中确定多个重点词各自对应的同义词，将各重点词替换为对应的同义词，得到第二文本集；计算第二文本集中的每个第二文本对应的困惑度；从第二文本集中的各第二文本中确定困惑度小于预设阈值的第三文本，并基于训练好的预训练模型预测每个第三文本的标签，得到增强后的带标签的第三文本集。本发明专利技术不依赖人工设计的同义词库且可以保证增强后的文本集依然符合自然语言规则。规则。规则。

全部详细技术资料下载

【技术实现步骤摘要】
文本数据增强方法、装置、电子设备及存储介质

[0001]本专利技术涉及自然语言处理
，尤其涉及一种文本数据增强方法、装置、电子设备及存储介质。

技术介绍

[0002]随着大数据时代来临，各领域的文本数据已然呈现爆炸式增长。然而，实际的生产场景中，时常伴随着带标签文本数据稀缺的现象，即大量文本数据处于无标签状态。由于数据打标的质量和规模对由大数据驱动的人工智能模型影响较大，为了保证模型性能，往往需要耗费大量的人力、物力和财力进行人工打标。此外，由于数据分布的差异，不同领域或场景下的数据打标成果难以共享，造成一定的资源浪费。
[0003]针对上述问题，目前较为常用的一种方案为文本数据增强。文本数据增强可以简单理解为根据少量文本数据生成大量文本数据的过程。文本数据增强不仅可以增加训练的数据量（好样本），提高模型的泛化能力，而且通过增加噪声数据（坏样本），提升模型的鲁棒性。此外，数据样本不均衡问题也可以通过数据增强克服。
[0004]目前较为常用的文本数据增强方法包括：同义词替换法、随机删除法、随机交换法和随机插入法等等。其中，同义词替换法需要额外的人工设计的同义词库支撑，而随机删除法、随机交换法和随机插入法无法保证生成的新样本依然符合自然语言规则。

技术实现思路

[0005]本专利技术提供一种文本数据增强方法、装置、电子设备及存储介质，用以解决现有技术中同义词替换法需要额外的人工设计的同义词库支撑，而随机删除法、随机交换法和随机插入法无法保证生成的新样本依然符合自然语言规则的缺陷，实现

【技术保护点】

【技术特征摘要】
1.一种文本数据增强方法，其特征在于，包括：获取带标签的第一文本集；基于训练好的预训练模型，确定所述第一文本集中的每个第一文本中的多个重点词，并从所述第一文本集中确定所述多个重点词各自对应的同义词，将各所述重点词替换为对应的所述同义词，得到第二文本集，所述训练好的预训练模型为将所述第一文本集输入初始预训练模型中进行训练得到的；计算所述第二文本集中的每个第二文本对应的困惑度；从所述第二文本集中的各所述第二文本中确定所述困惑度小于预设阈值的第三文本，并基于所述训练好的预训练模型预测每个所述第三文本的标签，得到增强后的带标签的第三文本集。2.根据权利要求1所述的文本数据增强方法，其特征在于，所述基于训练好的预训练模型，确定所述第一文本集中的每个第一文本中的多个重点词，包括：针对所述第一文本集中每个第一文本中的每个词，将所述词进行遮挡，基于所述训练好的预训练模型计算遮挡前的所述第一文本对应的损失和遮挡后的所述第一文本对应的损失，并计算遮挡前后的损失差值的绝对值；针对所述第一文本集中每个第一文本，将所述第一文本中各个词对应的所述绝对值按照从大到小的顺序进行排序，选择排序靠前的多个所述绝对值各自对应的所述词作为所述第一文本中的多个重点词。3.根据权利要求2所述的文本数据增强方法，其特征在于，所述将所述词进行遮挡，包括：将所述第一文本中的所述词替换为遮挡标签，以遮挡所述词。4.根据权利要求1至3任一项所述的文本数据增强方法，其特征在于，所述从所述第一文本集中确定所述多个重点词各自对应的同义词，包括：针对每个所述重点词，计算所述重点词的词向量与所述第一文本集中的其他词的词向量之间的距离；将所述距离最小的词确定为所述重点词对应的所述同义词。5.根据权利要求1至3任一项所述的文本数据增强方法，其特征在于，所述计算所述第二文本集中的每个第二文本对应的困惑度，包括：统计所...

【专利技术属性】
技术研发人员：华娇娇，唐华云，王延昭，徐烨，商丽丽，孙爽，
申请(专利权)人：中债金科信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人