文本数据增强方法及装置制造方法及图纸

技术编号：38477901 阅读：14 留言：0更新日期：2023-08-15 16:56

本公开涉及计算机技术领域，提供了一种文本数据增强方法及装置。该方法包括：根据待处理文本的文本长度选取第一数值作为对待处理文本进行插入处理的第一插入符号的数量；将数量为第一数值的第一插入符号随机插入到待处理文本中，生成增强文本。本公开的技术方案可以获得较多的标注数据。以获得较多的标注数据。以获得较多的标注数据。

全部详细技术资料下载

【技术实现步骤摘要】
文本数据增强方法及装置

[0001]本公开涉及计算机
，尤其涉及一种文本数据增强方法及装置。

技术介绍

[0002]在使用机器学习模型进行文本分类任务训练时，一直受到标注数据不足问题的困扰。尤其在深度学习时代，对标注数据数量的需求更加迫切。而在传统行业中获取大量的标注数据的过程对人力和物力都有很高的要求。
[0003]不能获得足够的标注数据进行训练，将很大程度影响到文本分类任务的训练效果，进而影响到文本分类任务的分类效果。

技术实现思路

[0004]有鉴于此，本公开实施例提供了一种文本数据增强方法、装置、电子设备及计算机可读存储介质，以解决现有技术中不能获得足够的标注数据进行训练的技术问题。
[0005]本公开实施例的第一方面，提供了一种文本数据增强方法，该方法包括：根据待处理文本的文本长度选取第一数值作为对待处理文本进行插入处理的第一插入符号的数量；将数量为第一数值的第一插入符号随机插入到待处理文本中，生成增强文本。
[0006]本公开实施例的第二方面，提供了一种文本数据增强装...

【技术保护点】

【技术特征摘要】
1.一种文本数据增强方法，其特征在于，所述方法包括：根据待处理文本的文本长度选取第一数值作为对所述待处理文本进行插入处理的第一插入符号的数量；将数量为第一数值的所述第一插入符号随机插入到所述待处理文本中，生成增强文本。2.根据权利要求1所述的方法，其特征在于，根据所述待处理文本的文本长度选取第一数值，包括：根据所述待处理文本的文本长度获取第二数值；在1至所述第二数值之间随机选取所述第一数值。3.根据权利要求1所述的方法，其特征在于，所述第一插入符号包括标点符号。4.根据权利要求1所述的方法，其特征在于，生成增强文本之后，所述方法还包括：将数量为第三数值的第二插入符号按照设定的概率规则插入到所述增强文本中，其中，所述第二插入符号包括掩码符号和/或预留符号，所述设定的概率规则包括：以第四数值的概率将部分所述第二插入符号插入到所述增强文本的文首，以第五数值的概率将部分所述第二插入符号插入到所述增强文本的文首之外的其它部位。5.根据权利要求4所述的方法，其特征在于，将数量为第三数值的第二插入符号按照设定的概率规则插入到所述增强文本中之前，所述方法还包括：根据...

【专利技术属性】
技术研发人员：徐琳，王芳，暴宇健，
申请(专利权)人：深圳须弥云图空间科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人