用于文本分类的数据增强方法、装置、电子设备及介质制造方法及图纸

技术编号:37056650 阅读:7 留言:0更新日期:2023-03-29 19:33
本申请公开了一种用于文本分类的数据增强方法、装置及介质。其中方法包括:基于待处理的文本语料库,确定文本数量;若文本数量不大于预设文本数量阈值,则确定文本语料库包括的多个文本分别对应的若干分词;确定文本语料库包括的多个文本分别对应的文本标签,文本标签包括置信度和文本类别;确定文本语料库包括的多种文本类别各自对应的若干高频词,以得到训练样本,利用训练样本对预构建的初始模型进行训练,得到训练好的文本类别识别模型。本申请起到了对扩充后的数据的质量进行验证的效果,达到了通过置信度提升了后续训练好的模型的文本分类的识别精度的目的;同时提升了训练好的模型的泛化性,降低了学习成本和维修成本。降低了学习成本和维修成本。降低了学习成本和维修成本。

【技术实现步骤摘要】
用于文本分类的数据增强方法、装置、电子设备及介质


[0001]本申请涉及文本识别
,具体而言,本申请涉及一种用于文本分类的数据增强方法、装置、电子设备及介质。

技术介绍

[0002]在人工智能高速发展的今天,自然语言处理技术和模型也在不断迭代和更新。当下机器翻译、自动摘要、阅读理解、实体识别、文本分类等任务中对数据的需求更加旺盛,特别是大模型的趋势更加需求大量的语料,然后再运用到小语料数据集上。因此文本数量的多少,质量的高低直接影响到AI系统、自然语音处理NLP任务的效果。相关的对文本语料进行增加方式包括:一、对语料数据集特别少的情况下,利用专家业务知识制定一系列的业务规则,以制作专家系统,使该系统可以达到良好的效果,保证整个系统的良好运行,但这种方式的缺点是系统严重依赖于领域内专家,不容易被机器或者普通人学习,时间成本过高,同时后续维护也是严重依赖于领域内专家,实现细节繁琐;二、通过数据增强的方式来扩充语料以训练模型,使得模型泛化性能更好,使得学习成本降低,而且系统在后续维护也轻易可靠,但这种方式存在扩充后的数据质量需要进一步验证,需要依赖于一定数量的数据来训练数据增强模型,扩充后的数据和线上用户产生的数据可能存在分布偏差的问题。

技术实现思路

[0003]本申请提供了一种用于文本分类的数据增强方法、装置、电子设备及计算机可读存储介质,可以解决上述问题。所述技术方案如下:
[0004]第一方面,提供了一种用于文本分类的数据增强方法,该方法包括:
[0005]基于待处理的文本语料库,确定文本数量;
[0006]若文本数量不大于预设文本数量阈值,则确定文本语料库包括的多个文本分别对应的若干分词;
[0007]确定文本语料库包括的多个文本分别对应的文本标签,文本标签包括置信度和文本类别;
[0008]依据文本语料库包括的多个文本分别对应的若干分词和文本语料库包括的多个文本分别对应的文本类别进行高频词统计,得到文本语料库包括的多种文本类别各自对应的若干高频词;
[0009]基于文本语料库包括的多种文本类别各自对应的若干高频词和文本语料库包括的多个文本分别对应的文本标签,确定训练样本;
[0010]利用训练样本对预构建的初始模型进行训练,得到训练好的文本类别识别模型,以利用文本类别识别模型对新文本进行识别。
[0011]第二方面,提供了一种用于文本分类的数据增强装置,该装置包括:
[0012]语料库文本数量确定模块,用于基于待处理的文本语料库,确定文本数量;
[0013]语料库文本分词确定模块,用于若文本数量不大于预设文本数量阈值,则确定文
本语料库包括的多个文本分别对应的若干分词;
[0014]语料库文本标签确定模块,用于确定文本语料库包括的多个文本分别对应的文本标签,文本标签包括置信度和文本类别;
[0015]语料库文本高频词确定模块,用于依据文本语料库包括的多个文本分别对应的若干分词和文本语料库包括的多个文本分别对应的文本类别进行高频词统计,得到文本语料库包括的多种文本类别各自对应的若干高频词;
[0016]对语料库提取训练样本模块,用于基于文本语料库包括的多种文本类别各自对应的若干高频词和文本语料库包括的多个文本分别对应的文本标签,确定训练样本;
[0017]文本类别识别模型训练模块,用于利用训练样本对预构建的初始模型进行训练,得到训练好的文本类别识别模型,以利用文本类别识别模型对新文本进行识别。
[0018]第三方面,提供了一种电子设备,该电子设备包括:
[0019]一个或多个处理器;
[0020]存储器;
[0021]一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行上述用于文本分类的数据增强方法。
[0022]第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述用于文本分类的数据增强方法。
[0023]本申请实施例基于待处理的文本语料库,确定文本数量,并在文本数量不大于预设文本数量阈值的情形下,确定文本语料库包括的多个文本分别对应的若干分词,确定文本语料库包括的多个文本分别对应的文本标签,文本标签包括置信度和文本类别,进而依据文本语料库包括的多个文本分别对应的若干分词和文本语料库包括的多个文本分别对应的文本类别进行高频词统计,得到文本语料库包括的多种文本类别各自对应的若干高频词,基于文本语料库包括的多种文本类别各自对应的若干高频词和文本语料库包括的多个文本分别对应的文本标签,确定训练样本,从而利用训练样本对预构建的初始模型进行训练,得到训练好的文本类别识别模型,以利用文本类别识别模型对新文本进行识别,这种通过确定各文本的分词并结合文本标签来统计高频词的方式,起到了对扩充后的数据的质量进行验证的效果,达到了通过置信度提升后续训练好的模型的文本分类的识别精度的目的;同时提升了训练好的模型的泛化性,降低了学习成本和维修成本。
附图说明
[0024]为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
[0025]图1为本申请实施例提供的一种用于文本分类的数据增强方法的流程示意图;
[0026]图2为本申请实施例提供的一种用于文本分类的数据增强方法的应用流程示意图;
[0027]图3为本申请实施例提供的一种用于文本分类的数据增强装置的结构示意图。
具体实施方式
[0028]下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
[0029]本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
[0030]首先对本申请涉及的几个名词进行介绍和解释:
[0031]数据增强:是一种从现有的训练样本中生成新的训练样本,在数据约束环境下提高机器学习模型性能和准确性的成本和有效的方法;
[0032]专家系统:是一种在特定领域内具有专家水平解决问题能力的程序系统,它能够有效地运用专家多年积累的有效经验和专门知识,通过模拟专家的思维过程,解决需要专家才能解决的问题。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于文本分类的数据增强方法,其特征在于,包括:基于待处理的文本语料库,确定文本数量;若所述文本数量不大于预设文本数量阈值,则确定所述文本语料库包括的多个文本分别对应的若干分词;确定所述文本语料库包括的多个文本分别对应的文本标签,所述文本标签包括置信度和文本类别;依据所述文本语料库包括的多个文本分别对应的若干分词和所述文本语料库包括的多个文本分别对应的所述文本类别进行高频词统计,得到所述文本语料库包括的多种文本类别各自对应的若干高频词;基于所述文本语料库包括的多种文本类别各自对应的若干高频词和所述文本语料库包括的多个文本分别对应的文本标签,确定训练样本;利用所述训练样本对预构建的初始模型进行训练,得到训练好的文本类别识别模型,以利用所述文本类别识别模型对新文本进行识别。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取新文本;将所述新文本输入至所述文本类别识别模型,确定所述新文本的文本标签;若所述新文本的所述文本标签中置信度大于预设的置信度阈值,则利用所述新文本更新所述文本训练样本,得到新训练样本;利用所述新训练样本对所述文本类别识别模型进行迭代训练,得到动态更新文本类别识别模型。3.根据权利要求2所述的方法,其特征在于,所述利用所述新文本更新所述训练样本,得到新训练样本的步骤,包括:利用所述新文本对所述文本语料库进行更新,得到新文本语料库;确定所述新文本语料库包括的各个文本分别对应的若干分词和所述新文本语料库包括的各个文本各自的文本类别进行高频词统计,得到所述新文本语料库包括的多种文本类别各自对应的若干高频词;依据所述新文本语料库包括的多种文本类别各自对应的若干高频词以及所述新文本语料库包括的多种文本类别各自对应的文本标签,确定所述新训练样本。4.根据权利要求1所述的方法,其特征在于,所述依据所述文本语料库包括的多个文本分别对应的若干分词和所述文本语料库包括的多个文本分别对应的所述文本类别进行高频词统计,得到所述文本语料库包括的多种文本类别各自对应的若干高频词的步骤,包括:依据所述文本语料库包括的多个文本分别对应的若干分词和所述文本语料库包括的多个文本分别对应的所述文本类别进行词频统计,得到所述文本语料库包括的多种文本类别各自对应的若干分词分别对应的词频;对所述文本语料库包括的多种文本类别各自对应的若干分词分别对应的词频进行降序排序;依据排序结果,将所述文本语料库包括的多种文本类别各自对应的词频排名前预定数量的分词作为高频词,以得到所述文本语料...

【专利技术属性】
技术研发人员:段兴涛赵国庆周长安
申请(专利权)人:北京中关村科金技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1