一种基于自动机器学习的文本分类方法技术

技术编号：33210894 阅读：7 留言：0更新日期：2022-04-27 16:46

本发明专利技术公开了一种基于自动机器学习的文本分类方法，涉及文本分类技术领域，此方法将单次实验流程划分为依次连接和执行的预处理、特征工程(可选)、模型pipeline；各pipeline支持多种算子选择；利用基于贝叶斯优化和遗传算法的优化器从前次实验配置和结果获得反馈生成用于下次实验的算子配置；从搜索空间中搜索出最优算子配置并返回。本发明专利技术的有益效果为全程自动化，在使用者指定搜索空间后所需人力介入为零，系统会自动进行实验搜索最优配置，能够针对不同场景搜索出不同的最优算子配置，且搜索过程全程自动，相关算法人员不再需要应对每个文本分类场景进行单独地人工算法定制，在相同的时间内能输出更优的算子配置，可使得结果准确，可以提高流程计算速度。可以提高流程计算速度。可以提高流程计算速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自动机器学习的文本分类方法

[0001]本专利技术涉及文本分类
，特别涉及一种基于自动机器学习的文本分类方法。

技术介绍

[0002]文本分类指的是给定文本，预测文本所属类别的一种任务。文本分类通常包含三个步骤，即预处理、特征工程(可选)、模型预测。当前文本分类 state
‑
of
‑
the
‑
art(SOTA)方法通常在对原始文本的预处理后，以BERT类模型进行预测。虽然此类方法在某些场景下已经能达到较为理想的效果，但欠缺也同样明显：1、由于预处理有不同方法，而BERT类模型也数量众多，且每个模型均有诸如学习率、权重衰减、batch size等多个参数需要配置，最终效果也对模型的选择和配置的具体值敏感，上述理想效果的实现通常需要大量的实验找到较优的预处理方式、模型选择及参数。2、由于文本分类的实际应用场景千变万化，例如，给新闻划分内容分类显然不同于给法律文书归档分类，这就导致不同场景所适合的模型和参数选择可能大有不同。在一个场景中经反复调试得到的预处理方式、模型选择、参数配置难以用于另一个场景，每一个场景在模型选择等方面均需要重新定制。3、由于可选模型和模型包含的参数众多，人力难以穷尽所有组合，所做的实验仅能覆盖部分组合，因此有很大可能存在未经实验却效果更优的组合。
[0003]上述前两点，大量的实验和依场景的每次定制尝试通常都需要人手工完成，这就导致了此类方法的人力时间成本较高。而第三点的存在，则表明了人工得到的配置组合其效果可能并非最优...

【技术保护点】

【技术特征摘要】
1.一种基于自动机器学习的文本分类方法，包括以下步骤：S1:将单次实验流程划分为依次连接和执行的预处理、特征工程(可选)、模型pipeline；S2:各pipeline支持多种算子选择；S3:利用基于贝叶斯优化和遗传算法的优化器从前次实验配置和结果获得反馈生成用于下次实验的算子配置；S4:从搜索空间中搜索出最优算子配置并返回。2.如权利要求1所述的一种基于自动机器学习的文本分类方法，其特征在于，每一pipeline在文本分类任务下有具体功能及涵盖的具体算子，具体而言：预处理pipeline通过可配置长度的前向截断、后向截断、前向+后向截断、可配置比例的按比例截断等算子执行数据预处理；特征工程pipeline通过FastText，GloVe等算子生成embedding，为建模提供准备；模型pipeline通过涵盖BERT类和非BERT类的诸多模型算子执行实际的模型训练，对输入文本或embedding进行分类，输出实验结果。3.如权利要求2所述的一种基于自动机器学习的文本分类方法，其特征在于，涵盖BERT类和非BERT类，包括：BERT，RoBERTa，DistilBERT，ALBERT，ELECTRA，ERNIE，GPT2，XLNet，TextCNN，RCNN等约30个算子。4.如权利要求3所述的一种基于自动机器学习的文本分类方法，其特征在于，预处理pipeline接收训练数据及优化器产生的预处理算子配置，构建相应的预处理算子，并利用预处理算子执行数据预处理。5.如权利要求4所述的一种基于自动机器学习的文本分类方法，其特征在于，特征工程pipeline的主要目的是生成训练文本对应的e...

【专利技术属性】
技术研发人员：林义章，万雨薇，洪思睿，张杨，吴承霖，
申请(专利权)人：深圳深度赋智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人