一种数据增强方法、文本分类模型的训练方法和装置制造方法及图纸

技术编号：33471751 阅读：11 留言：0更新日期：2022-05-19 00:48

本申请提出一种数据增强方法、文本分类模型的训练方法和装置，涉及文本分类技术领域。为解决现有技术中文本分类的准确率较低的问题而发明专利技术。包括S10、获取文本分类的至少一个初始训练文本和对应类别；S20、根据任意第一数量初始训练文本中每个初始训练文本对应的分词数据中停用词个数，分别对该任意第一数量初始训练文本中每个初始训练文本对应的分词数据进行停用词处理，得到第一数量的增强数据；S30、判断得到的增强数据是否符合预设数据规则；如果是，执行步骤S40；否则，执行所述步骤S20；S40、将所述至少一个初始训练文本和对应类别与所有增强数据和对应类别混合，得到增强训练集。训练集。训练集。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据增强方法、文本分类模型的训练方法和装置

[0001]本申请涉及文本分类
，尤其涉及一种数据增强方法、文本分类模型的训练方法和装置。

技术介绍

[0002]自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向，而文本分类为自然语言处理中的一种重要应用，其主要应用在情感分类、用户评价分类等领域。
[0003]现有技术中，文本分类模型的准确率依赖于大量的训练数据和高质量的标签信息。
[0004]由于文本分类模型公开的训练数据很少，因此通过公开的训练数据对文本分类模型进行训练，文本分类的准确率较低。

技术实现思路

[0005]有鉴于此，本申请的主要目的在于解决现有的文本分类准确率较低的技术问题。
[0006]一方面，提供一种数据增强方法，包括：S10、获取文本分类的至少一个初始训练文本和对应类别；S20、根据任意第一数量初始训练文本中每个初始训练文本对应的分词数据中停用词个数，分别对该任意第一数量初始训练文本中每个初始训练文本对应的分词数据进行停用词处理，得到第一数量的增强数据；所述停用词处理包括停用词插入、停用词删除、停用词替换和停用词交换中的一种或多种；每个增强数据的类别与对应初始训练文本的类别相同；所述第一数量为正整数，所述第一数量不大于所述至少一个初始训练文本的数量；S30、判断得到的增强数据是否符合预设数据规则；如果是，执行步骤S40；否则，执行所述步骤S20；S40、将所述至少一个初始训练文...

【技术保护点】

【技术特征摘要】
1.一种数据增强方法，其特征在于，包括：S10、获取文本分类的至少一个初始训练文本和对应类别；S20、根据任意第一数量初始训练文本中每个初始训练文本对应的分词数据中停用词个数，分别对该任意第一数量初始训练文本中每个初始训练文本对应的分词数据进行停用词处理，得到第一数量的增强数据；所述停用词处理包括停用词插入、停用词删除、停用词替换和停用词交换中的一种或多种；每个增强数据的类别与对应初始训练文本的类别相同；所述第一数量为正整数，所述第一数量不大于所述至少一个初始训练文本的数量；S30、判断得到的增强数据是否符合预设数据规则；如果是，执行步骤S40；否则，执行所述步骤S20；S40、将所述至少一个初始训练文本和对应类别与所有增强数据和对应类别混合，得到增强训练集。2.根据权利要求1所述的数据增强方法，其特征在于，在所述S40之前还包括：S31、分别将每个类别进行一位有效编码，得到对应的类别编码；S32、根据预设编码转换规则分别对每个增强数据对应的类别编码进行编码转换，得到对应的增强编码；所述S40具体为，将所述至少一个初始训练文本和对应类别编码与所有增强数据和对应增强编码混合，得到增强训练集。3.根据权利要求1或2所述的数据增强方法，其特征在于，对于任一初始训练文本，所述S20包括：S201、获取该初始训练文本对应的分词数据中停用词个数；S202、当停用词个数为0时，对该初始训练文本对应的分词数据进行停用词插入，得到初始增强数据；S203、当停用词个数为1时，对该初始训练文本对应的分词数据进行停用词插入、停用词删除或停用词替换，得到初始增强数据；S204、当停用词个数大于1时，对该初始训练文本对应的分词数据进行停用词插入、停用词删除、停用词替换或停用词交换，得到初始增强数据；S205、判断停用词处理的次数是否达到预设第二阈值；如果是，执行步骤S206；否则，将该初始训练文本更新为当前初始增强数据后执行步骤S201；所述预设第二阈值为正整数；S206、将停用词处理的次数达到预设第二阈值时的初始增强数据作为对应的增强数据。4.根据权利要求2所述的数据增强方法，其特征在于，对于任一增强数据，所述S32包括：根据预设编码转换规则将该增强数据对应的类别编码中值为1的编码随机转换为p，将值为0的编码随机转换为(0，0.5)区间内的数字，转换后的所有数据之和为1，0.5<p<1。5.根据权利要求1或2所述的数据增强方法，其特征在于，在所述S20之前，还包括：S11、分别对该任意第一数量初始训练文本中每个初始训练文本进行预处理后分词，得到该任意第一数量初始训练文本中每个初始训练文本对应的分词数据；或者，S12、分别对所述至少一个初始训练文本中每个初始训练文本进行预处理后分词，得到
所述至少一个初始训练文本中每个初始训练文本对应的分词数据。6.根据权利要求5所述的数据增强方法，其特征在于，所述预处理包括：标点符号过滤、缩写补齐、删除空格和非法字符过滤中的一种或多种。7.根据权利要求1或2所述的数据增强方法，其特征在于，所述预设数据规则，包括：所有增强数据的个数达到预设第三阈值；和/或，所有增强数据的个数与所有初始训练文本的个数之比达到预设第四阈值。8.一种文本分类模型的训练方法，其特征在于，包括：T10、通过如权利要求1
‑
7中任一数据增强方法获取增强训练集；T20、通过所述增强训练集对初始文本分类模型进行训练，得到最终分类模型。9.一种文本分类模型的训练方法，其特征在于，包括：P10、获取文本分类模型的至少一个初始训练文本和对应类别；P20、根据任意第二数量初始训练文本中每个初始训练文本对应的分词数据中停用词个数，分别对该任意第二数量初始训练文本中每个初始训练文本对应的分词数据进行停用词处理，得到第二数量的增强数据；所述停用词处理包括停用词插入、停用词删除、停用词替换和停用词交换中的一种或多种；每个增强数据的类别与对应初始训练文本的类别相同；所述第二数量为正整数，所述第二数量不大于所述至少一个初始训练文本的数量；P30、将该任意第二数量初始训练文本和对应类别与该第二数量的增强数据和对应类别混合，得到增强训练集；P40、通过该增强训练集对初始文本分类模型进行训练，得到训练模型；P50、判断当前训练模型是否符合预设训练规则；如果是，执行步骤P60；否则，使用当前训练模型更新初始文本分类模型后执行所述步骤P20；P60、将符合预设训练规则的当前训练模型作为最终分类模型。10.根据权利要求9所述的文本分类模型的训练方法，其特征在于，在所述步骤P30之前，还包括：P21、分别将每个类别进行一位有效编码，得到对应的类别编码；P22、根据预设编码转换规则分别对该第二数量的增强数据中每个增强数据对应的类别编码进行编码转换，得到对应的增强编码；所述P30具体为，将该任意第二数量初始训练文本和对应类别编码与该第二数量的增强数据和对应增强编码混合，得到增强训练集。11.根据权利要求9或10所述的文本分类模型的训练方法，其特征在于，对于任一初始训练文本，所述P20包括：P201、获取该初始训练文本对应的分词数据中停用词个数；P202、当停用词个数为0时，对该初始训练文本对应的分词数据进行停用词插入，得到初始增强数据；P203、当停用词个数为1时，对该初始训练文本对应的分词数据进行停用词插入、停用词删除或停用词替换，得到初始增强数据；P204、当停用词个数大于1时，对该初始训练文本对应的分词数据进行停用词插入、停用词删除、停用词替换或停用词交换，得到初始增强数据；
P205、判断停用词处理的次数是否达到预设第二阈值；如果是，执行步骤P206；否则，将该初始训练文本更新为当前初始增强数据后执行步骤P201；P206、将停用词处理的次数达到预设第二阈值时的初始增强数据作为对应的增强数据。12.根据权利要求10所述的文本分类模型的训练方法，其特征在于，对于任一增强数据，所述P22包括：根据预设编码转换规则将该增强数据对应的类别编码中值为1的编码随机转换为p，将值为0的编码随机转换为(0，0.5)区间内的数字，转换后的所有数据之和为1，0.5<p<1。13.根据权利要求9或10所述的文本分类模型的训练方法，其特征在于，在所述P20之前，还包括：P11、分别对该任意第二数量初始训练文本中每个初始训练文本进行预处理后分词，得到该任意第二数量初始训练文本中每个初始训练文本对应的分词数据；或者，P12、分别对所述至少一个初始训练文本中每个初始训练文本进行预处理后分词，得到所述至少一个初始训练文本中每个初始训练文本对应的分词数据。14.根据权利要求9或10所述的文本分类模型的训练方法，其特征在于，所述预设训练规则，包括：模型训练总次数达到预设第五阈值；和/或，连续b次训练得到的训练模型的分类效果相同或下降，所述b为正整数。15.一种数据增强装置，其特征在于，包括：数据获取模块，用于获取文本分类的至少一个初始训练文本和对应类别；停用词处理模块，与所述数据获取模块相连，用于根据任意第一数量初始训练文本中每个初始训练文本对应的分词数据中停用词个数，分别对该任意第一数量初始训练文本中每个初始训练文本对应的分词数据进行停用词处理，得到第一数量的增强数据；所述停用词处理包括停用词插入、停用词删除、停用词替换和停用词交换中的一种或多种；每个增强数据的类别与对应初始训练文本的类别相同；所述第一数量为正整数，所述第一数量不大于所述至少一个初始训练文本的数量；规则判断模块，与所述停用词处理模块相连，用于判断得到的增强数据是否符合预设数据规则；如果规则判断模块确定得到的增强数据符合预设数据规则，通过数据混合模块进行数据混合；否则，通过所述...

【专利技术属性】
技术研发人员：张盼盼，袁一涵，林星，白兴安，徐扬，
申请(专利权)人：北京微播易科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人