【技术实现步骤摘要】
基于文本数据增强的文本分类方法及装置
[0001]本公开涉及文本处理
,尤其涉及一种基于文本数据增强的文本分类方法及装置。
技术介绍
[0002]在模型训练中,为了得到大量的训练数据,往往会对训练数据进行数据增强处理,文本分类领域中的模型训练也是如此。目前的文本数据增强手段往往是随机以一定规则替换原文的部分词语,或随机增加和删除一部分词语,或对句子进行回译等。这些方式都是对原文基于某些规则进行直接修改,往往造成增强出来的新句子语义不通顺,或已经偏离原句语义很多,同时这些方式只是简单的增加了训练数据的数量,实际上对于模型的泛化能力并没有有效的提高。
[0003]在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下技术问题:基于传统文本数据增强方法训练的文本分类模型存在泛化能力弱的问题。
技术实现思路
[0004]有鉴于此,本公开实施例提供了一种基于文本数据增强的文本分类方法、装置、电子设备及计算机可读存储介质,以解决现有技术中,基于传统文本数据增强方法训练的文本分类模型存在泛化能力弱的问 ...
【技术保护点】
【技术特征摘要】
1.一种基于文本数据增强的文本分类方法,其特征在于,包括:获取文本数据库,其中,所述文本数据库包括多个文档,每个文档包括多条语句;利用分词器对每条语句进行分词处理,得到每条语句对应的分词结果,其中,每个分词结果包括多个词语;计算每个词语的重要性评估值;根据每个词语的重要性评估值,对所述文本数据库进行多次采样,得到数据增强后的文本数据库;利用数据增强后的文本数据库,进行文本分类训练。2.根据权利要求1所述的方法,其特征在于,所述计算每个词语的重要性评估值,包括:基于每个词语在该词语所在分词结果中出现的次数与该词语所在分词结果的词语总数,确定每个词语的词频;基于出现每个词语的文档的数量与所述文本数据库中所有文档的总数量,确定每个词语的逆文档评率;基于每个词语的词频和逆文档评率,确定每个词语的重要性评估值。3.根据权利要求1所述的方法,其特征在于,所述根据每个词语的重要性评估值,对所述文本数据库进行多次采样,得到数据增强后的文本数据库,包括:按照如下方式对所述文本数据库进行多次采样:将所述重要性评估值小于目标阈值的词语以第一概率替换为掩码,将未替换为掩码的词语保留原始值。4.根据权利要求1所述的方法,其特征在于,所述利用数据增强后的文本数据库,进行文本分类训练,包括:获取所述文本分类训练的训练任务;基于所述训练任务标注所述数据增强后的文本数据库中每个词语的标签;利用标注标签后的文本数据库,进行文本分类训练。5.根据权利要求3所述的方法,其特征在于,所述将所述重要性评估值小于目标阈值的词语以第一概率替换为掩码,将未替换为掩码的词语保留原始值之前,所述方法还包括:获取所述文本分类训练的模型...
【专利技术属性】
技术研发人员:ꢀ七四专利代理机构,
申请(专利权)人:深圳须弥云图空间科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。