用于文本分类的数据增强方法、装置、电子设备及介质制造方法及图纸

技术编号：37056650 阅读：22 留言：0更新日期：2023-03-29 19:33

本申请公开了一种用于文本分类的数据增强方法、装置及介质。其中方法包括：基于待处理的文本语料库，确定文本数量；若文本数量不大于预设文本数量阈值，则确定文本语料库包括的多个文本分别对应的若干分词；确定文本语料库包括的多个文本分别对应的文本标签，文本标签包括置信度和文本类别；确定文本语料库包括的多种文本类别各自对应的若干高频词，以得到训练样本，利用训练样本对预构建的初始模型进行训练，得到训练好的文本类别识别模型。本申请起到了对扩充后的数据的质量进行验证的效果，达到了通过置信度提升了后续训练好的模型的文本分类的识别精度的目的；同时提升了训练好的模型的泛化性，降低了学习成本和维修成本。降低了学习成本和维修成本。降低了学习成本和维修成本。

全部详细技术资料下载

【技术实现步骤摘要】
用于文本分类的数据增强方法、装置、电子设备及介质

[0001]本申请涉及文本识别
，具体而言，本申请涉及一种用于文本分类的数据增强方法、装置、电子设备及介质。

技术介绍

[0002]在人工智能高速发展的今天，自然语言处理技术和模型也在不断迭代和更新。当下机器翻译、自动摘要、阅读理解、实体识别、文本分类等任务中对数据的需求更加旺盛，特别是大模型的趋势更加需求大量的语料，然后再运用到小语料数据集上。因此文本数量的多少，质量的高低直接影响到AI系统、自然语音处理NLP任务的效果。相关的对文本语料进行增加方式包括：一、对语料数据集特别少的情况下，利用专家业务知识制定一系列的业务规则，以制作专家系统，使该系统可以达到良好的效果，保证整个系统的良好运行，但这种方式的缺点是系统严重依赖于领域内专家，不容易被机器或者普通人学习，时间成本过高，同时后续维护也是严重依赖于领域内专家，实现细节繁琐；二、通过数据增强的方式来扩充语料以训练模型，使得模型泛化性能更好，使得学习成本降低，而且系统在后续维护也轻易可靠，但这种方式存在扩充后的数据质量...

【技术保护点】

【技术特征摘要】
1.一种用于文本分类的数据增强方法，其特征在于，包括：基于待处理的文本语料库，确定文本数量；若所述文本数量不大于预设文本数量阈值，则确定所述文本语料库包括的多个文本分别对应的若干分词；确定所述文本语料库包括的多个文本分别对应的文本标签，所述文本标签包括置信度和文本类别；依据所述文本语料库包括的多个文本分别对应的若干分词和所述文本语料库包括的多个文本分别对应的所述文本类别进行高频词统计，得到所述文本语料库包括的多种文本类别各自对应的若干高频词；基于所述文本语料库包括的多种文本类别各自对应的若干高频词和所述文本语料库包括的多个文本分别对应的文本标签，确定训练样本；利用所述训练样本对预构建的初始模型进行训练，得到训练好的文本类别识别模型，以利用所述文本类别识别模型对新文本进行识别。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取新文本；将所述新文本输入至所述文本类别识别模型，确定所述新文本的文本标签；若所述新文本的所述文本标签中置信度大于预设的置信度阈值，则利用所述新文本更新所述文本训练样本，得到新训练样本；利用所述新训练样本对所述文本类别识别模型进行迭代训练，得到动态更新文本类别识别模型。3.根据权利要求2所述的方法，其特征在于，所述利用所述新文本更新所述训练样本，得到新训练样本的步骤，包括：利用所述新文本对所述文本语料库进行更新，得到新文本语料库；确定所述新文本语料库包括的各个文本分别对应的若干分词和所述新文本语料库包括的各个文本各自的文本类别进行高频词统计，得到所述新文本语料库包括的多种文本类别各自对应的若干高频词；依据所述新文本语料库包括的多种文本类别各自对应的若干高频词以及所述新文本语料库包括的多种文本类别各自对应的文本标签，确定所述新训练样本。4.根据权利要求1所述的方法，其特征在于，所述依据所述文本语料库包括的多个文本分别对应的若干分词和所述文本语料库包括的多个文本分别对应的所述文本类别进行高频词统计，得到所述文本语料库包括的多种文本类别各自对应的若干高频词的步骤，包括：依据所述文本语料库包括的多个文本分别对应的若干分词和所述文本语料库包括的多个文本分别对应的所述文本类别进行词频统计，得到所述文本语料库包括的多种文本类别各自对应的若干分词分别对应的词频；对所述文本语料库包括的多种文本类别各自对应的若干分词分别对应的词频进行降序排序；依据排序结果，将所述文本语料库包括的多种文本类别各自对应的词频排名前预定数量的分词作为高频词，以得到所述文本语料...

【专利技术属性】
技术研发人员：段兴涛，赵国庆，周长安，
申请(专利权)人：北京中关村科金技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人