【技术实现步骤摘要】
文本数据增强方法、系统和计算机设备和存储介质
[0001]本申请涉及数据处理
,特别是涉及文本数据增强方法、系统和计算机可读存储介质。
技术介绍
[0002]近年来,随着深度学习技术的发展,各种神经网络模型被广泛应用于命名实体识别任务,并且取得了不错的效果。深度学习技术使用神经网络模型自动从数据中挖掘特征,往往需要大量高质量的数据作为训练样本支撑,才具有较高的数据泛化能力。显然,在目前的实际工程应用中,普遍存在数据量较少而且数据不平衡等情况,使得模型在训练数据上非常容易过拟合,影响模型的泛化能力。并且人工标注新的数据会带来较高的人力时间成本。为了解决该问题,文本数据增强是一种非常有效的数据扩充方法。
[0003]数据增强技术作为扩充训练集的重要手段,常用来生成更多的新数据补充文本训练数据集,进而提高模型的泛化能力。数据增强技术的核心在于,不改变数据本身所表达的含义,使用数据的另一种表现形式作为新样本来补充训练数据。文本领域最常用的数据增强方式是词汇替换和反向翻译。词汇替换是指从文本中随机选取一个或多个词,利用同 ...
【技术保护点】
【技术特征摘要】
1.一种文本数据增强方法,其特征在于,包括以下步骤:词向量获取步骤,从一文本训练数据集中提取实体,并利用一预训练模型从每一所述实体中获取其对应的词向量;实体聚类步骤,通过聚类将所述词向量对应的所述实体划分至对应的类簇,构建一实体类簇字典;实体替换步骤,选定目标文本并确定所述目标文本对应的待替换实体,根据所述实体类簇字典选取替换实体完成替换,生成增强样本数据集。2.根据权利要求1所述的文本数据增强方法,其特征在于,所述词向量获取步骤进一步包括:模型一次训练步骤,利用通用语料训练预设网络结构并获取预训练模型;词表重构步骤,获取文本训练数据集中的所有实体,对所有所述实体进行编码获得实体编码,并将所述实体编码加入所述预训练模型的词表中,对所述词表进行重构;模型二次训练步骤,根据所述文本训练数据集获取无标注文本语料,基于重构后的所述词表利用所述实体编码替换所述无标注文本中的对应实体,并根据替换后的所述无标注文本训练所述预训练模型,并保存二次训练后的所述预训练模型;实体词向量获取步骤,基于所述词表获取所述实体编码的ID并输入至所述预训练模型,获取所述实体编码对应的向量,即获得对应所述实体的词向量。3.根据权利要求1所述的文本数据增强方法,其特征在于,所述实体聚类步骤具体包括:词向量类簇获取步骤,利用聚类算法将所述词向量进行聚类,将其划分为不同的类簇;实体类簇字典构建步骤,根据所述实体和所述词向量的对应关系,得到每个所述类簇包含的所述实体,构建所述实体类簇字典。4.根据权利要求3所述的文本数据增强方法,其特征在于,所述聚类算法设置为K
‑
Means聚类算法、DBSCAN聚类算法和层次聚类算法其一或其组合。5.根据权利要求1
‑
4任意一项所述的文本数据增强方法,其特征在于,所述实体替换步骤进一步包括:类簇确定步骤,根据所述目标文本确定所述待替换实体,根据所述实体类簇字典确定所述待替换实体所属的所述类簇;新样本数据生成步骤,根据所述实体类簇字典,选择该类簇中...
【专利技术属性】
技术研发人员:王博,薛小娜,
申请(专利权)人:北京明略软件系统有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。