数据增强方法和数据增强装置制造方法及图纸

技术编号：43813228 阅读：23 留言：0更新日期：2024-12-27 13:28

本申请涉及一种数据增强方法和数据增强装置。该方法包括：根据数据集内各初始语句中的实体词，获取多个扩展实体词，然后基于预设的约束条件，对多个扩展实体词进行实体词处理，得到多个样本语句，最后对多个样本语句中的实体词进行标注，得到数据集的增强数据集。其中，约束条件用于约束实体词处理过程中插入在扩展实体词边界位置中的词语的合法性。采用本方法能够提升增强样本语义连贯性，进而提升样本数据增强效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，特别是涉及一种数据增强方法和数据增强装置。

技术介绍

1、在深度学习领域，深度学习模型的训练精度依赖于数据集的质量。在此情况下，采用数据增强技术对数据集进行扩充显得尤为重要。

2、以深度学习模型是命名实体识别模型为例，相关技术中，在对命名实体识别模型的数据集进行数据增强时，通常是在保持数据集中样本标签不变的情况下，对样本中的词语进行替换、回译处理，以生成新的增强样本，进而扩充数据集。

3、然而，相关技术中生成新的增强样本存在语义不连贯的问题，导致样本数据增强的效果较差。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提升增强样本语义连贯性，进而提升样本数据增强效果的数据增强方法和数据增强装置。

2、第一方面，本申请提供了一种数据增强方法，包括：

3、根据数据集内各初始语句中的实体词，获取多个扩展实体词；

4、基于预设的约束条件，对多个扩展实体词进行实体词处理，得到多个样本语句；约束条件用于约束实体...

【技术保护点】

1.一种数据增强方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于预设的约束条件，对所述多个扩展实体词进行实体词处理，得到多个样本语句，包括：

3.根据权利要求2所述的方法，其特征在于，所述约束条件包括保持各所述目标扩展实体词的文本内容不变，且，插词填充后每个目标扩展实体词的上下文内容属于指定实体词标签中的实体词；所述按照所述约束条件对各所述目标扩展实体词进行插词填充处理，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取各所述目标扩展实体词之间插槽中待填充的文本信息，包括：

5.根据权利要求2-4...

【技术特征摘要】

1.一种数据增强方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于预设的约束条件，对所述多个扩展实体词进行实体词处理，得到多个样本语句，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取各所述目标扩展实体词之间插槽中待填充的文本信息，包括：

5.根据权利要求2-4任一项所述的方法，其特征在于，所述文本生成模型的训练过程包括：

6.根据权利要求5所述的方法，其特征在于，所述根据各所述语料中各实体词的重要性量化值，得到各所述语料的多个语料序列，包括：

7...

【专利技术属性】
技术研发人员：漆睿，焦岩，董露露，
申请(专利权)人：曙光信息产业股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人