一种文本数据增强方法、电子设备及存储介质技术

技术编号:37787764 阅读:47 留言:0更新日期:2023-06-09 09:18
本发明专利技术提供了一种文本数据增强方法、存储介质和电子设备,所述方法包括:接收输入的原始文本数据;基于设定标注模式对接收的原始文本数据进行标注,形成与原始文本数据对应的原始文本标签数据;基于原始文本数据和原始文本标签数据生成m个对应的增强文本数据和增强文本标签数据。本发明专利技术由于基于原始文本数据和原始文本标签数据生成m个对应的增强文本数据和增强文本标签数据,使得生成的增强文本数据带有标签,因此能够减少标注时间,提高标注效率。提高标注效率。提高标注效率。

【技术实现步骤摘要】
一种文本数据增强方法、电子设备及存储介质


[0001]本专利技术涉及文本数据增强领域,特别是涉及一种文本数据增强方法、电子设备及存储介质。

技术介绍

[0002]在一些应用场景下,需要利用海量的数据源对模型进行训练,以提高模型的准确性。然而,由于多种原因,很难找到合适的海量的数据源。为获得海量的数据源,当前的一种解决方案是进行数据增强,即利用数据增强技术对有限的数据源进行增强,以得到所需数量的数据源。这种方式能够解决数据源数量的问题,但是得到的增强数据是不带标签的,这样,在需要标注任务的模型时,还需要对增强数据进行标注,占用时间多,标注效率低。

技术实现思路

[0003]针对上述技术问题,本专利技术采用的技术方案为:本专利技术实施例提供一种文本数据增强方法,所述方法包括如下步骤:S100,接收输入的原始文本数据;S200,基于设定标注模式对接收的原始文本数据进行标注,以为原始文本数据中的每个文字添加对应的标签,形成与原始文本数据对应的原始文本标签数据;S300,基于所述原始文本数据和原始文本标签数据生成m个对应的增强文本数据和增本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本数据增强方法,其特征在于,所述方法包括如下步骤:S100,接收输入的原始文本数据;S200,基于设定标注模式对接收的原始文本数据进行标注,以为原始文本数据中的每个文字添加对应的标签,形成与原始文本数据对应的原始文本标签数据;S300,基于所述原始文本数据和原始文本标签数据生成m个对应的增强文本数据和增强文本标签数据,m≥2;其中,在S300中,任一增强文本数据i和增强文本标签数据i通过如下方式生成:S301,基于原始文本数据形成的高维向量C和空集,从设定标注模式的标签中获取位于增强文本标签数据i的第1位置的标签;S302,从设定的候选词词典中获取与所述第1位置的标签相对应的候选词,形成第1候选词集合;S303,从第1候选词集合中获取位于增强文本数据i的第1位置的候选词;S304,如果第k位置的候选词不是设定的结束标识符,执行S305;否则,执行S308;k≥1;S305,设置k=k+1,并根据C以及第1至第(k

1)位置的候选词,从设定标注模式中的标签中获取位于增强文本标签数据i的第k位置的标签;S306,从设定的候选词词典中获取与第k位置的标签相对应的候选词,形成第k候选词集合;S307,从第k候选词集合中获取位于增强文本数据i的第k位置的候选词;执行S304;S308,结束流程,得到增强文本数据i和增强文本标签数据i。2.根据权利要求1所述的方法,其特征在于,还包括以下步骤:S400,计算第一文本相似度集D1=(D11,D12,

,D1
i


,D1
m
...

【专利技术属性】
技术研发人员:张正义傅晓航刘羽刘宸
申请(专利权)人:中科雨辰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1