一种数据增强方法、文本分类模型的训练方法和装置制造方法及图纸

技术编号:33471751 阅读:11 留言:0更新日期:2022-05-19 00:48
本申请提出一种数据增强方法、文本分类模型的训练方法和装置,涉及文本分类技术领域。为解决现有技术中文本分类的准确率较低的问题而发明专利技术。包括S10、获取文本分类的至少一个初始训练文本和对应类别;S20、根据任意第一数量初始训练文本中每个初始训练文本对应的分词数据中停用词个数,分别对该任意第一数量初始训练文本中每个初始训练文本对应的分词数据进行停用词处理,得到第一数量的增强数据;S30、判断得到的增强数据是否符合预设数据规则;如果是,执行步骤S40;否则,执行所述步骤S20;S40、将所述至少一个初始训练文本和对应类别与所有增强数据和对应类别混合,得到增强训练集。训练集。训练集。

【技术实现步骤摘要】
一种数据增强方法、文本分类模型的训练方法和装置


[0001]本申请涉及文本分类
,尤其涉及一种数据增强方法、文本分类模型的训练方法和装置。

技术介绍

[0002]自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,而文本分类为自然语言处理中的一种重要应用,其主要应用在情感分类、用户评价分类等领域。
[0003]现有技术中,文本分类模型的准确率依赖于大量的训练数据和高质量的标签信息。
[0004]由于文本分类模型公开的训练数据很少,因此通过公开的训练数据对文本分类模型进行训练,文本分类的准确率较低。

技术实现思路

[0005]有鉴于此,本申请的主要目的在于解决现有的文本分类准确率较低的技术问题。
[0006]一方面,提供一种数据增强方法,包括:S10、获取文本分类的至少一个初始训练文本和对应类别;S20、根据任意第一数量初始训练文本中每个初始训练文本对应的分词数据中停用词个数,分别对该任意第一数量初始训练文本中每个初始训练文本对应的分词数据进行停用词处理,得到第一数量的增强数据;所述停用词处理包括停用词插入、停用词删除、停用词替换和停用词交换中的一种或多种;每个增强数据的类别与对应初始训练文本的类别相同;所述第一数量为正整数,所述第一数量不大于所述至少一个初始训练文本的数量;S30、判断得到的增强数据是否符合预设数据规则;如果是,执行步骤S40;否则,执行所述步骤S20;S40、将所述至少一个初始训练文本和对应类别与所有增强数据和对应类别混合,得到增强训练集。
[0007]另一方面,提供一种文本分类模型的训练方法,包括:T10、通过上述数据增强方法获取增强训练集;T20、通过所述增强训练集对初始文本分类模型进行训练,得到最终分类模型。
[0008]另一方面,提供一种文本分类模型的训练方法,包括:P10、获取文本分类模型的至少一个初始训练文本和对应类别;P20、根据任意第二数量初始训练文本中每个初始训练文本对应的分词数据中停用词个数,分别对该任意第二数量初始训练文本中每个初始训练文本对应的分词数据进行停用词处理,得到第二数量的增强数据;所述停用词处理包括停用词插入、停用词删除、停用词替换和停用词交换中的一种或多种;每个增强数据的类别与对应初始训练文本的类别相同;所述第二数量为正整数,所述第二数量不大于所述至少一个初始训练文本的数量;P30、将该任意第二数量初始训练文本和对应类别与该第二数量的增强数据和对应类别混合,得到增强训练集;P40、通过该增强训练集对初始文本分类模型进行训练,得到训练模型;P50、判断当前训练模型是否符合预设训练规则;如果是,执行步骤
P60;否则,使用当前训练模型更新初始文本分类模型后执行所述步骤P20;P60、将符合预设训练规则的当前训练模型作为最终分类模型。
[0009]又一方面,提供一种数据增强装置,包括:
[0010]数据获取模块,用于获取文本分类的至少一个初始训练文本和对应类别;
[0011]停用词处理模块,与所述数据获取模块相连,用于根据任意第一数量初始训练文本中每个初始训练文本对应的分词数据中停用词个数,分别对该任意第一数量初始训练文本中每个初始训练文本对应的分词数据进行停用词处理,得到第一数量的增强数据;所述停用词处理包括停用词插入、停用词删除、停用词替换和停用词交换中的一种或多种;每个增强数据的类别与对应初始训练文本的类别相同;所述第一数量为正整数,所述第一数量不大于所述至少一个初始训练文本的数量;
[0012]规则判断模块,与所述停用词处理模块相连,用于判断得到的增强数据是否符合预设数据规则;
[0013]如果规则判断模块确定得到的增强数据符合预设数据规则,通过数据混合模块进行数据混合;否则,通过所述停用词处理模块进行停用词处理;
[0014]所述数据混合模块,与所述规则判断模块相连,用于将所述至少一个初始训练文本和对应类别与所有增强数据和对应类别混合,得到增强训练集。
[0015]又一方面,提供一种文本分类模型的训练装置,包括:
[0016]训练集获取模块,用于通过上述数据增强装置获取增强训练集;
[0017]模型训练模块,与所述训练集获取模块相连,用于通过所述增强训练集对初始文本分类模型进行训练,得到最终分类模型。
[0018]再一方面,提供一种文本分类模型的训练装置,包括:
[0019]数据获取模块,用于获取文本分类模型的至少一个初始训练文本和对应类别;
[0020]停用词处理模块,与所述数据获取模块相连,用于根据任意第二数量初始训练文本中每个初始训练文本对应的分词数据中停用词个数,分别对该任意第二数量初始训练文本中每个初始训练文本对应的分词数据进行停用词处理,得到第二数量的增强数据;所述停用词处理包括停用词插入、停用词删除、停用词替换和停用词交换中的一种或多种;每个增强数据的类别与对应初始训练文本的类别相同;所述第二数量为正整数,所述第二数量不大于所述至少一个初始训练文本的数量;
[0021]数据混合模块,分别与所述数据获取模块和停用词处理模块相连,用于将该任意第二数量初始训练文本和对应类别与该第二数量的增强数据和对应类别混合,得到增强训练集;
[0022]模型训练模块,与所述数据混合模块相连,用于通过该增强训练集对初始文本分类模型进行训练,得到训练模型;
[0023]模型判断模块,与所述模型训练模块相连,用于判断当前训练模型是否符合预设训练规则;
[0024]如果当前训练模型符合预设训练规则,通过模型获取模块获取最终分类模型;否则,通过更新模块更新模型;
[0025]所述更新模块,分别与所述模型判断模块、所述模型训练模块和所述停用词处理模块相连,用于使用当前训练模型更新初始文本分类模型后通过所述停用词处理模块进行
停用词处理;
[0026]所述模型获取模块,与所述模型判断模块相连,用于将符合预设训练规则的当前训练模型作为最终分类模型。
[0027]综上所述,本专利技术实施例提供的数据增强方法、文本分类模型的训练方法和装置,通过对初始训练文本进行停用词处理,得到增强数据,将增强数据和初始训练文本混合得到增强训练集,从而实现数据增强。由于使用现有文本进行模型训练之前,先进行数据增强,丰富了文本的内容,提高了文本分类模型的抗噪能力和文本分类的准确率,解决了现有技术中由于文本分类模型公开的训练数据很少,因此通过公开的训练数据对文本分类模型进行训练,文本分类的准确率较低的问题。而且,本专利技术提供的技术方案,在数据增强时仅进行停用词处理,并不会改变文本的语法和语义,保证了文本的稳定性。
[0028]本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
[0029]本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据增强方法,其特征在于,包括:S10、获取文本分类的至少一个初始训练文本和对应类别;S20、根据任意第一数量初始训练文本中每个初始训练文本对应的分词数据中停用词个数,分别对该任意第一数量初始训练文本中每个初始训练文本对应的分词数据进行停用词处理,得到第一数量的增强数据;所述停用词处理包括停用词插入、停用词删除、停用词替换和停用词交换中的一种或多种;每个增强数据的类别与对应初始训练文本的类别相同;所述第一数量为正整数,所述第一数量不大于所述至少一个初始训练文本的数量;S30、判断得到的增强数据是否符合预设数据规则;如果是,执行步骤S40;否则,执行所述步骤S20;S40、将所述至少一个初始训练文本和对应类别与所有增强数据和对应类别混合,得到增强训练集。2.根据权利要求1所述的数据增强方法,其特征在于,在所述S40之前还包括:S31、分别将每个类别进行一位有效编码,得到对应的类别编码;S32、根据预设编码转换规则分别对每个增强数据对应的类别编码进行编码转换,得到对应的增强编码;所述S40具体为,将所述至少一个初始训练文本和对应类别编码与所有增强数据和对应增强编码混合,得到增强训练集。3.根据权利要求1或2所述的数据增强方法,其特征在于,对于任一初始训练文本,所述S20包括:S201、获取该初始训练文本对应的分词数据中停用词个数;S202、当停用词个数为0时,对该初始训练文本对应的分词数据进行停用词插入,得到初始增强数据;S203、当停用词个数为1时,对该初始训练文本对应的分词数据进行停用词插入、停用词删除或停用词替换,得到初始增强数据;S204、当停用词个数大于1时,对该初始训练文本对应的分词数据进行停用词插入、停用词删除、停用词替换或停用词交换,得到初始增强数据;S205、判断停用词处理的次数是否达到预设第二阈值;如果是,执行步骤S206;否则,将该初始训练文本更新为当前初始增强数据后执行步骤S201;所述预设第二阈值为正整数;S206、将停用词处理的次数达到预设第二阈值时的初始增强数据作为对应的增强数据。4.根据权利要求2所述的数据增强方法,其特征在于,对于任一增强数据,所述S32包括:根据预设编码转换规则将该增强数据对应的类别编码中值为1的编码随机转换为p,将值为0的编码随机转换为(0,0.5)区间内的数字,转换后的所有数据之和为1,0.5<p<1。5.根据权利要求1或2所述的数据增强方法,其特征在于,在所述S20之前,还包括:S11、分别对该任意第一数量初始训练文本中每个初始训练文本进行预处理后分词,得到该任意第一数量初始训练文本中每个初始训练文本对应的分词数据;或者,S12、分别对所述至少一个初始训练文本中每个初始训练文本进行预处理后分词,得到
所述至少一个初始训练文本中每个初始训练文本对应的分词数据。6.根据权利要求5所述的数据增强方法,其特征在于,所述预处理包括:标点符号过滤、缩写补齐、删除空格和非法字符过滤中的一种或多种。7.根据权利要求1或2所述的数据增强方法,其特征在于,所述预设数据规则,包括:所有增强数据的个数达到预设第三阈值;和/或,所有增强数据的个数与所有初始训练文本的个数之比达到预设第四阈值。8.一种文本分类模型的训练方法,其特征在于,包括:T10、通过如权利要求1

7中任一数据增强方法获取增强训练集;T20、通过所述增强训练集对初始文本分类模型进行训练,得到最终分类模型。9.一种文本分类模型的训练方法,其特征在于,包括:P10、获取文本分类模型的至少一个初始训练文本和对应类别;P20、根据任意第二数量初始训练文本中每个初始训练文本对应的分词数据中停用词个数,分别对该任意第二数量初始训练文本中每个初始训练文本对应的分词数据进行停用词处理,得到第二数量的增强数据;所述停用词处理包括停用词插入、停用词删除、停用词替换和停用词交换中的一种或多种;每个增强数据的类别与对应初始训练文本的类别相同;所述第二数量为正整数,所述第二数量不大于所述至少一个初始训练文本的数量;P30、将该任意第二数量初始训练文本和对应类别与该第二数量的增强数据和对应类别混合,得到增强训练集;P40、通过该增强训练集对初始文本分类模型进行训练,得到训练模型;P50、判断当前训练模型是否符合预设训练规则;如果是,执行步骤P60;否则,使用当前训练模型更新初始文本分类模型后执行所述步骤P20;P60、将符合预设训练规则的当前训练模型作为最终分类模型。10.根据权利要求9所述的文本分类模型的训练方法,其特征在于,在所述步骤P30之前,还包括:P21、分别将每个类别进行一位有效编码,得到对应的类别编码;P22、根据预设编码转换规则分别对该第二数量的增强数据中每个增强数据对应的类别编码进行编码转换,得到对应的增强编码;所述P30具体为,将该任意第二数量初始训练文本和对应类别编码与该第二数量的增强数据和对应增强编码混合,得到增强训练集。11.根据权利要求9或10所述的文本分类模型的训练方法,其特征在于,对于任一初始训练文本,所述P20包括:P201、获取该初始训练文本对应的分词数据中停用词个数;P202、当停用词个数为0时,对该初始训练文本对应的分词数据进行停用词插入,得到初始增强数据;P203、当停用词个数为1时,对该初始训练文本对应的分词数据进行停用词插入、停用词删除或停用词替换,得到初始增强数据;P204、当停用词个数大于1时,对该初始训练文本对应的分词数据进行停用词插入、停用词删除、停用词替换或停用词交换,得到初始增强数据;
P205、判断停用词处理的次数是否达到预设第二阈值;如果是,执行步骤P206;否则,将该初始训练文本更新为当前初始增强数据后执行步骤P201;P206、将停用词处理的次数达到预设第二阈值时的初始增强数据作为对应的增强数据。12.根据权利要求10所述的文本分类模型的训练方法,其特征在于,对于任一增强数据,所述P22包括:根据预设编码转换规则将该增强数据对应的类别编码中值为1的编码随机转换为p,将值为0的编码随机转换为(0,0.5)区间内的数字,转换后的所有数据之和为1,0.5<p<1。13.根据权利要求9或10所述的文本分类模型的训练方法,其特征在于,在所述P20之前,还包括:P11、分别对该任意第二数量初始训练文本中每个初始训练文本进行预处理后分词,得到该任意第二数量初始训练文本中每个初始训练文本对应的分词数据;或者,P12、分别对所述至少一个初始训练文本中每个初始训练文本进行预处理后分词,得到所述至少一个初始训练文本中每个初始训练文本对应的分词数据。14.根据权利要求9或10所述的文本分类模型的训练方法,其特征在于,所述预设训练规则,包括:模型训练总次数达到预设第五阈值;和/或,连续b次训练得到的训练模型的分类效果相同或下降,所述b为正整数。15.一种数据增强装置,其特征在于,包括:数据获取模块,用于获取文本分类的至少一个初始训练文本和对应类别;停用词处理模块,与所述数据获取模块相连,用于根据任意第一数量初始训练文本中每个初始训练文本对应的分词数据中停用词个数,分别对该任意第一数量初始训练文本中每个初始训练文本对应的分词数据进行停用词处理,得到第一数量的增强数据;所述停用词处理包括停用词插入、停用词删除、停用词替换和停用词交换中的一种或多种;每个增强数据的类别与对应初始训练文本的类别相同;所述第一数量为正整数,所述第一数量不大于所述至少一个初始训练文本的数量;规则判断模块,与所述停用词处理模块相连,用于判断得到的增强数据是否符合预设数据规则;如果规则判断模块确定得到的增强数据符合预设数据规则,通过数据混合模块进行数据混合;否则,通过所述...

【专利技术属性】
技术研发人员:张盼盼袁一涵林星白兴安徐扬
申请(专利权)人:北京微播易科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1