文本数据增强方法及装置制造方法及图纸

技术编号:38477901 阅读:7 留言:0更新日期:2023-08-15 16:56
本公开涉及计算机技术领域,提供了一种文本数据增强方法及装置。该方法包括:根据待处理文本的文本长度选取第一数值作为对待处理文本进行插入处理的第一插入符号的数量;将数量为第一数值的第一插入符号随机插入到待处理文本中,生成增强文本。本公开的技术方案可以获得较多的标注数据。以获得较多的标注数据。以获得较多的标注数据。

【技术实现步骤摘要】
文本数据增强方法及装置


[0001]本公开涉及计算机
,尤其涉及一种文本数据增强方法及装置。

技术介绍

[0002]在使用机器学习模型进行文本分类任务训练时,一直受到标注数据不足问题的困扰。尤其在深度学习时代,对标注数据数量的需求更加迫切。而在传统行业中获取大量的标注数据的过程对人力和物力都有很高的要求。
[0003]不能获得足够的标注数据进行训练,将很大程度影响到文本分类任务的训练效果,进而影响到文本分类任务的分类效果。

技术实现思路

[0004]有鉴于此,本公开实施例提供了一种文本数据增强方法、装置、电子设备及计算机可读存储介质,以解决现有技术中不能获得足够的标注数据进行训练的技术问题。
[0005]本公开实施例的第一方面,提供了一种文本数据增强方法,该方法包括:根据待处理文本的文本长度选取第一数值作为对待处理文本进行插入处理的第一插入符号的数量;将数量为第一数值的第一插入符号随机插入到待处理文本中,生成增强文本。
[0006]本公开实施例的第二方面,提供了一种文本数据增强装置,该装置包括:选取模块,用于根据待处理文本的文本长度选取第一数值作为对待处理文本进行插入处理的第一插入符号的数量;插入模块,用于将数量为第一数值的第一插入符号随机插入到待处理文本中,生成增强文本。
[0007]本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
[0008]本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
[0009]本公开实施例与现有技术相比存在的有益效果是:本公开实施例的技术方案通过选取数量为第一数值的第一插入符号随机插入到待处理文本中,在不改变待处理文本的语序的情况下增加噪声,进行数据增强,从而可以获得足够的标注数据进行训练,优化文本分类任务的训练效果以及文本分类任务的分类效果。
[0010]进一步地,本公开实施例的技术方案提出一种通过使用标点符号、掩码符号和词表预留符号等插入符号来增加文本数据噪声的数据增强技术,通过在原始文本中随机或者按照一定概率规则插入一些插入符号,对原始文本进行噪声添加,从而形成新的增强数据文本。通过实验验证,本公开实施例技术方案中的文本数据增强方案在大部分公开数据集上的实施效果优于传统文本增强方法。
附图说明
[0011]为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0012]图1是本公开实施例提供的一种文本数据增强方法的流程示意图;图2是本公开实施例提供的另一种文本数据增强方法的流程示意图;图3是本公开实施例提供的一种文本数据增强装置的结构示意图;图4是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
[0013]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
[0014]相关技术中,采用文本数据增强技术对训练标注数据进行扩充,可以增大标注数据的数量从而提高到文本分类任务的训练效果以及文本分类任务的分类效果。
[0015]数据增强指的是利用已有数据,采用某些方式,构造出和已有数据尽可能相似的同一类型的人造数据,这些人造数据尽可能和原有数据相似,又不能完全相同,这样在使用这些数据进行训练时,才能够模型训练产生正向效果,提升模型精度,减少模型过拟合。
[0016]当前使用的一种EDA(Easy Data Augmentation,简单数据扩充)技术是一种用于提高文本分类任务性能的简单数据增强技术。EDA由四个简单但功能强大的操作组成:同义词替换、随机交换、随机插入和随机删除。其中,同义词替换是指通过同义词表将句子中的词语进行同义词替换,随机交换是指随机交换句子的两个词语,改变语序,随机插入是指在原始句子中随机插入,句子中某一个词的同义词,随机删除是指随机删除句子中的词语。
[0017]进一步地,当前使用的纯规则的文本数据增强方法,可以随机以一定规则替换原文的部分词语,或者随机增加、删除一部分词语。这些方式都是对原文基于某些规则进行直接修改,这种修改往往造成增强得到的新句子语义不通顺,或已经偏离原句语义很多,从而影响增强的效果。
[0018]另外,进行文本数据增强时,还可以对句子进行回译,比如将中文原句经过机器翻译模型翻译成英文,再由另一个机器翻译模型从英文翻译回中文,这句新的中文就被作为增强语句使用。这种方法相对前述方法更加复杂,且耗时更多。这是因为性能较差的机器翻译模型会造成回译出来的句子质量较差,而提高机器翻译模型性能可能造成更多的模型成本提高,从而降低文本数据增强的经济性能。
[0019]并且,无论上述的哪种数据增强方式,都将改变原始文本的序列信息,从而将影响优化文本分类任务的训练效果以及文本分类任务的分类效果。
[0020]为解决以上问题,本公开实施例提供一种文本数据增强方案,以获得足够的标注数据进行训练,优化文本分类任务的训练效果以及文本分类任务的分类效果。
[0021]下面将结合附图详细说明根据本公开实施例的文本数据增强方法和装置。
[0022]图1是本公开实施例提供的一种文本数据增强方法的流程示意图。本公开实施例提供的方法可以由任意具备计算机处理能力的电子设备执行,例如终端或服务器。如图1所示,该文本数据增强方法包括:步骤S101,根据待处理文本的文本长度选取第一数值作为对待处理文本进行插入处理的第一插入符号的数量。
[0023]具体地,在将第一插入符号插入到待处理文本之前,需要确定插入到当前待处理文本的第一插入符号的数量以及第一插入符号插入到待处理文本中的位置。在本公开实施例中,插入到当前待处理文本的第一插入符号的数量根据待处理文本的文本长度选取。其中,待处理文本即为原始文本。
[0024]步骤S102,将数量为第一数值的第一插入符号随机插入到待处理文本中,生成增强文本。
[0025]具体地,第一插入符号插入到待处理文本中的位置可以为随机选取,以增加数据增强文本的随机性,从而优化文本分类任务的训练效果以及文本分类任务的分类效果。
[0026]在本公开实施例中,第一插入符号可以为标点符号,且并不局限于此。
[0027]本公开实施例的技术方案不同于目前主流的基于纯规则的文本数据增强方案,通过在原始文本中随机插入一些标点符号等插入符号,在不改变原始文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本数据增强方法,其特征在于,所述方法包括:根据待处理文本的文本长度选取第一数值作为对所述待处理文本进行插入处理的第一插入符号的数量;将数量为第一数值的所述第一插入符号随机插入到所述待处理文本中,生成增强文本。2.根据权利要求1所述的方法,其特征在于,根据所述待处理文本的文本长度选取第一数值,包括:根据所述待处理文本的文本长度获取第二数值;在1至所述第二数值之间随机选取所述第一数值。3.根据权利要求1所述的方法,其特征在于,所述第一插入符号包括标点符号。4.根据权利要求1所述的方法,其特征在于,生成增强文本之后,所述方法还包括:将数量为第三数值的第二插入符号按照设定的概率规则插入到所述增强文本中,其中,所述第二插入符号包括掩码符号和/或预留符号,所述设定的概率规则包括:以第四数值的概率将部分所述第二插入符号插入到所述增强文本的文首,以第五数值的概率将部分所述第二插入符号插入到所述增强文本的文首之外的其它部位。5.根据权利要求4所述的方法,其特征在于,将数量为第三数值的第二插入符号按照设定的概率规则插入到所述增强文本中之前,所述方法还包括:根据...

【专利技术属性】
技术研发人员:徐琳王芳暴宇健
申请(专利权)人:深圳须弥云图空间科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1