文本数据的增强方法及装置制造方法及图纸

技术编号：39150790 阅读：8 留言：0更新日期：2023-10-23 14:58

一种文本数据的增强方法及装置，该方法包括：获取针对目标任务的文本语料，所述文本语料包括标注语料；根据所述目标任务，确定第一标注语料中的待替换文本；利用第一语义特征模型选择所述待替换文本相近似的多个候选文本，利用第二语义特征模型从所述多个候选文本中选择与所述待替换文本最近似的目标文本，将所述第一标注语料中的待替换文本替换为所述目标文本，获得中间语料；对所述中间语料进行回译操作，得到第二标注语料，其中，所述第二标注语料的标签信息与所述第一标注语料的标签信息相同。本申请能够提高新增标注语料的质量，为基于标注语料训练后续的自然语言处理任务模型提供支持，改善训练得到的模型质量，提高模型的推理效果。模型的推理效果。模型的推理效果。

全部详细技术资料下载

【技术实现步骤摘要】
文本数据的增强方法及装置

[0001]本申请涉及自然语言处理
，具体涉及一种文本数据的增强方法及装置。

技术介绍

[0002]文本分类、命名实体识别等自然语言处理任务常采用有监督的方式进行模型训练，有监督学习的质量依赖于标注数据，而标注数据获取成本较高，数量较少且经常存在样本不均衡的问题，采用文本数据增强技术对已有标注语料进行扩充可以有效提升训练模型的效果。
[0003]目前的文本增强技术主要有简单数据增强(Easy Data Augmentation，EDA)技术(如随机替换、随机插入、随机删除、随机交换等)、回译(用机器翻译将一段第一语言的文本翻译成第二语言之后再翻译回第一语言)、采用神经网络模型构造新数据(例如，生成对抗网络生成新的文本数据)等。直接采用神经网络模型构造新数据会引入更多无法控制的噪声从而导致效果不佳。EDA和回译相结合的方式，通常是对文本中的句子进行切分，随机地选取一定比例(跟句子长度成正比)的词汇进行近义词替换，替换之后再回译得到增强数据。
[0004]由于随机地选取一定比例的词汇进行近义词替换对于提升训练模型的效果非常有限，目前的方案往往会选择特定的词汇进行替换，例如：词频
‑
逆向文件频率(Term Frequency
‑
Inverse Document Frequency，TF
‑
IDF)权重较高的关键词、带有类型标签的实体词、句法结构中的主谓宾语等。此外就近义词替换而言，命名实体识别任务中可以直接用实体库中同类型...

【技术保护点】

【技术特征摘要】
1.一种文本数据的增强方法，其特征在于，包括：获取针对目标任务的文本语料，所述文本语料包括标注语料；根据所述目标任务，确定第一标注语料中的待替换文本；利用第一语义特征模型选择所述待替换文本相近似的多个候选文本，利用第二语义特征模型从所述多个候选文本中选择与所述待替换文本最近似的目标文本，将所述第一标注语料中的待替换文本替换为所述目标文本，获得中间语料；对所述中间语料进行回译操作，得到第二标注语料，其中，所述第二标注语料的标签信息与所述第一标注语料的标签信息相同。2.根据权利要求1所述的方法，其特征在于，所述根据所述目标任务，确定第一标注语料中的待替换文本，包括：在所述目标任务为文本分类任务时，基于所述文本语料建立主题模型；针对第一标注语料，利用所述主题模型获取所述第一标注语料对应的最大概率的第一主题类型以及所述第一标注语料中与所述第一主题类型对应的多个关键词，其中，所述关键词为所述待替换文本。3.根据权利要求2所述的方法，其特征在于，所述关键词属于所述第一主题类型的概率大于预设阈值。4.根据权利要求2所述的方法，其特征在于，所述主题模型为LSI模型或LDA模型。5.根据权利要求2所述的方法，其特征在于，所述文本语料还包括未标注语料；所述基于所述文本语料建立主题模型，包括：对所述文本语料进行预处理，得到预处理后的语料，其中，所述预处理操作包括分词、去停用词和过滤非法字符；基于预处理后的语料，建立主题模型，其中，所述主题模型的主题数目是根据所述文本分类任务的目标类别个数设置的，词频数目是根据所述标注语料中的所有词汇在所述未标注语料中的词频分布设置的。6.根据权利要求1所述的方法，其特征在于，所述根据所述目标任务，确定第一标注语料中的待替换文本，包括：在所述目标任务为命名实体识别任务时，对所述文本语料进行预处理，得到预处理后的语料；根据预处理后的标注语料中的命名实体，构建实体字典，所述实体字典包括各个命名实体类型下的词汇；针对第一标注语料，从所述第一标注语料中随机选择部分命名实体对应的第一词汇，并将所述第一标注语料中的每个第一词汇替换为所述实体字典中同一命名实体类型下的第二词汇，得到更新后的第一标注语料，其中，所述更新后的第一标注语料中的第二词汇的上下文词汇为所述待替换文本。7.根据权利要求6所述的方法，其特征在于，将所述第一标注语料中的待替换文本替换为所述目标文本，包括：将所述更新后的第一标注语料中的第二词汇的上下文词汇，替换为对应的目标文本，得到所述中间语料；其中，所述第二标注语料包括有与所述第二词汇对应的第三词汇，所述第三词汇所属的类别标签与所述第一词汇的类别标签相同。
8.根据权利要求7所述的方法，其特征在于，在所述第一标注语料中的命名实体数量n
e
为1时，所述部分命名实体的数量为1；在所述第一标注语料中的命名实体数量大于1时，所述部分命名实体的数量大于或等于n
e
/2。9.根据权利要求1至8任一项所述的方法，其特征在于，所述第一语义特征模型是对预设语料库的数据进行无监督训练得到的，或者是对未标注语料进行无监督训练得到的。10.根据权利要求1至8任一项所述的方法，其特征在于，所述第一语义特征模型的语义表征能力低于所述第二语义特征模型的语义表征能力。11.根据权利要求9所述的方法，其特征在于，所述第一语义特征模型为GloVe模型或word2vec模型，所述第二语义特征模型为SimBert模型、SimCSE模型或RoformerSim模型。12.一种文本数据的增强装置，其特征在于，包括：获取模块，用于获取针对目标任务的文本语料，所述文本语料包括标注语料；确定模块，用于确定第一标注语料中的待...

【专利技术属性】
技术研发人员：何萌，李赫男，孟繁宇，
申请(专利权)人：中国移动通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人