一种基于自动机器学习的文本分类方法技术

技术编号:33210894 阅读:7 留言:0更新日期:2022-04-27 16:46
本发明专利技术公开了一种基于自动机器学习的文本分类方法,涉及文本分类技术领域,此方法将单次实验流程划分为依次连接和执行的预处理、特征工程(可选)、模型pipeline;各pipeline支持多种算子选择;利用基于贝叶斯优化和遗传算法的优化器从前次实验配置和结果获得反馈生成用于下次实验的算子配置;从搜索空间中搜索出最优算子配置并返回。本发明专利技术的有益效果为全程自动化,在使用者指定搜索空间后所需人力介入为零,系统会自动进行实验搜索最优配置,能够针对不同场景搜索出不同的最优算子配置,且搜索过程全程自动,相关算法人员不再需要应对每个文本分类场景进行单独地人工算法定制,在相同的时间内能输出更优的算子配置,可使得结果准确,可以提高流程计算速度。可以提高流程计算速度。可以提高流程计算速度。

【技术实现步骤摘要】
一种基于自动机器学习的文本分类方法


[0001]本专利技术涉及文本分类
,特别涉及一种基于自动机器学习的文本分类方法。

技术介绍

[0002]文本分类指的是给定文本,预测文本所属类别的一种任务。文本分类通常包含三个步骤,即预处理、特征工程(可选)、模型预测。当前文本分类 state

of

the

art(SOTA)方法通常在对原始文本的预处理后,以BERT类模型进行预测。虽然此类方法在某些场景下已经能达到较为理想的效果,但欠缺也同样明显:1、由于预处理有不同方法,而BERT类模型也数量众多,且每个模型均有诸如学习率、权重衰减、batch size等多个参数需要配置,最终效果也对模型的选择和配置的具体值敏感,上述理想效果的实现通常需要大量的实验找到较优的预处理方式、模型选择及参数。2、由于文本分类的实际应用场景千变万化,例如,给新闻划分内容分类显然不同于给法律文书归档分类,这就导致不同场景所适合的模型和参数选择可能大有不同。在一个场景中经反复调试得到的预处理方式、模型选择、参数配置难以用于另一个场景,每一个场景在模型选择等方面均需要重新定制。3、由于可选模型和模型包含的参数众多,人力难以穷尽所有组合,所做的实验仅能覆盖部分组合,因此有很大可能存在未经实验却效果更优的组合。
[0003]上述前两点,大量的实验和依场景的每次定制尝试通常都需要人手工完成,这就导致了此类方法的人力时间成本较高。而第三点的存在,则表明了人工得到的配置组合其效果可能并非最优
[0004]上述问题可能通过自动机器学习得到解决。自动机器学习旨在利用自动化的系统代替机器学习流程中人工进行的数据预处理、特征工程、模型选择、调参等步骤。虽然学术界对自动机器学习的研究日渐丰富,但在工业界具体实现自动机器学习系统的案例则不常见,而将自动机器学习用于文本分类这个实际任务的例子则更是缺乏。
[0005]为解决上述问题。为此,提出一种基于自动机器学习的文本分类方法。

技术实现思路

[0006]本专利技术的目的在于提供一种基于自动机器学习的文本分类方法,通过系统接收训练数据和搜索空间,并将搜索空间传输给优化器。此外,使用者定义实验次数;然后,优化器根据历史实验的记录,即算子配置及对应的实验结果,产生用于一次文本分类实验的算子配置(无历史实验记录时,即首次实验时,随机产生)。优化器的目标是获取最有可能导致最优结果的算子配置,本系统使用遗传算法和贝叶斯优化实现此获取的过程;其次,一次文本分类实验开始,一次实验由预处理pipeline、特征工程pipeline、模型pipeline依次拼接而成,预处理pipeline接收训练数据及优化器产生的预处理算子配置,构建相应的预处理算子,并利用预处理算子执行数据预处理,特征工程pipeline的主要目的是生成训练文本对应的embedding,其接收预处理好的数据,并从优化器获得特征工程算子配置,运用
FastText,GloVe等算子生成embedding并将embedding 传递给模型pipeline,模型pipeline接收特征工程的embedding或直接接收预处理后的文本数据,并从优化器获得模型算子配置,将embedding或文本输入模型算子,训练模型,模型算子训练完毕的同时,会利用验证集数据得出此次实验的评估指标,评估指标反映了利用当前算子配置进行文本分类的表现,系统会暂存下当前算子配置及对应指标;最后,一次文本分类实验完成。系统判断总实验次数是否达到使用者规定的最大实验次数;否,系统将此次实验的指标传至优化器,系统回到第三步重新开始执行。是,系统从暂存的所有实验记录内获取导致最优实验指标的配置,即为最优配置,输出配置,可以解决上述
技术介绍
中提出的问题。
[0007]为实现上述目的,本专利技术提供如下技术方案:一种基于自动机器学习的文本分类方法,包括以下步骤:
[0008]S1:将单次实验流程划分为依次连接和执行的预处理、特征工程(可选)、模型pipeline;
[0009]S2:各pipeline支持多种算子选择;
[0010]S3:利用基于贝叶斯优化和遗传算法的优化器从前次实验配置和结果获得反馈生成用于下次实验的算子配置;
[0011]S4:从搜索空间中搜索出最优算子配置并返回。
[0012]进一步地,每一pipeline在文本分类任务下有具体功能及涵盖的具体算子,具体而言:
[0013]预处理pipeline通过可配置长度的前向截断、后向截断、前向+后向截断、可配置比例的按比例截断等算子执行数据预处理;
[0014]特征工程pipeline通过FastText,GloVe等算子生成embedding,为建模提供准备;
[0015]模型pipeline通过涵盖BERT类和非BERT类的诸多模型算子执行实际的模型训练,对输入文本或embedding进行分类,输出实验结果。
[0016]进一步地,涵盖BERT类和非BERT类,包括:BERT,RoBERTa, DistilBERT,ALBERT,ELECTRA,ERNIE,GPT2,XLNet,TextCNN, RCNN等约30个算子。
[0017]进一步地,预处理pipeline接收训练数据及优化器产生的预处理算子配置,构建相应的预处理算子,并利用预处理算子执行数据预处理。
[0018]进一步地,特征工程pipeline的主要目的是生成训练文本对应的 embedding,其接收预处理好的数据,并从优化器获得特征工程算子配置,运用FastText,GloVe等算子生成embedding并将embedding传递给模型pipeline。
[0019]进一步地,模型pipeline接收特征工程的embedding或直接接收预处理后的文本数据,并从优化器获得模型算子配置,将embedding或文本输入模型算子,训练模型。
[0020]进一步地,模型算子训练完毕的同时,会利用验证集数据得出此次实验的评估指标,评估指标反映了利用当前算子配置进行文本分类的表现,系统会暂存下当前算子配置及对应指标。
[0021]进一步地,步骤S1

S4一次完成后,系统判断总实验次数是否达到使用者规定的最大实验次数,如果是,系统从暂存的所有实验记录内获取导致最优实验指标的配置,即为最优配置,输出配置,如果不是,系统将此次实验的指标传至优化器,系统回到S3重新开始执行,直到执行预设的N次。
[0022]进一步地,步骤S1

S4多次完成后,需要对每次进行实验数据与之前的实验数据比对,如果有重复的直接进行S3的操作,如果不重复,进行总实验次数是否达到使用者规定的最大实验次数操作。
[0023]进一步地,每次实验数据重复对比数据从各次实验所用算子配置及对应的实验结果内进行获取。
[0024]与现有技术相比,本专利技术的有益效果是:
[0025]1、本专利技术提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自动机器学习的文本分类方法,包括以下步骤:S1:将单次实验流程划分为依次连接和执行的预处理、特征工程(可选)、模型pipeline;S2:各pipeline支持多种算子选择;S3:利用基于贝叶斯优化和遗传算法的优化器从前次实验配置和结果获得反馈生成用于下次实验的算子配置;S4:从搜索空间中搜索出最优算子配置并返回。2.如权利要求1所述的一种基于自动机器学习的文本分类方法,其特征在于,每一pipeline在文本分类任务下有具体功能及涵盖的具体算子,具体而言:预处理pipeline通过可配置长度的前向截断、后向截断、前向+后向截断、可配置比例的按比例截断等算子执行数据预处理;特征工程pipeline通过FastText,GloVe等算子生成embedding,为建模提供准备;模型pipeline通过涵盖BERT类和非BERT类的诸多模型算子执行实际的模型训练,对输入文本或embedding进行分类,输出实验结果。3.如权利要求2所述的一种基于自动机器学习的文本分类方法,其特征在于,涵盖BERT类和非BERT类,包括:BERT,RoBERTa,DistilBERT,ALBERT,ELECTRA,ERNIE,GPT2,XLNet,TextCNN,RCNN等约30个算子。4.如权利要求3所述的一种基于自动机器学习的文本分类方法,其特征在于,预处理pipeline接收训练数据及优化器产生的预处理算子配置,构建相应的预处理算子,并利用预处理算子执行数据预处理。5.如权利要求4所述的一种基于自动机器学习的文本分类方法,其特征在于,特征工程pipeline的主要目的是生成训练文本对应的e...

【专利技术属性】
技术研发人员:林义章万雨薇洪思睿张杨吴承霖
申请(专利权)人:深圳深度赋智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1