基于自动机器学习的自适应文本分类方法及装置制造方法及图纸

技术编号：38464369 阅读：15 留言：0更新日期：2023-08-11 14:41

本发明专利技术提供一种基于自动机器学习的自适应文本分类方法及装置，其特征在于：所述方法包括以下步骤：S1：文本表达；S2：特征抽取；S3：学习器训练和分类；S4：输出分类结果，所述装置包括输入模块、预处理模块、分词模块、提取模块、训练和分类模块，本发明专利技术针对不同的分类任务，自适应的搭建出最合适的模型架构，同时本发明专利技术考虑了字词信息的结合，以及模型架构的压缩，大幅度的提升了模型的精确度，实现高效率高效果，操作工艺简单，适应人工智能的发展。适应人工智能的发展。适应人工智能的发展。

全部详细技术资料下载

【技术实现步骤摘要】
基于自动机器学习的自适应文本分类方法及装置

[0001]本专利技术主要涉及机器学习的
，具体为基于自动机器学习的自适应文本分类方法及装置。

技术介绍

[0002]随着人工智能领域的发展，人们对于文本分类的技术要求愈发提高，不论是作为OCR识别技术的后续处理程序，还是新闻分类，虚假新闻识别，垃圾邮件识别等需求，文本分类的精确性和对特定领域的适应性需求愈发的急迫。
[0003]在现有技术中，想要进行文本分类的识别任务，要考虑数据的预处理，模型的选择与搭建，实体信息的识别。目前主流做法是使用BERT等大规模预训练模型来做，但是这种方法模型过大，对算力要求很高，简易模型又在精确度和适用性上有所欠缺，并且专利技术人认为分类效率和效果较差，无法适应目前人工智能的发展。

技术实现思路

[0004]为了改善上述
技术介绍
的问题，本专利技术提供一种基于自动机器学习的自适应文本分类方法及装置。
[0005]本专利技术采用如下的技术方案：一种基于自动机器学习的自适应文本分类方法：所述方法包括以下步骤：
[0006]S1：文本表达，将非结构化的文本文档表示为机器易于处理的形式，文本表达包括文本预处理和分词技术；
[0007]S2：特征抽取；
[0008]d、根据文本预处理和分词技术在在初始全特征集基础上变成一个特征子集；
[0009]e、根据特征提取算法对特征的重要性进行评估；
[0010]f、然后进行重要排序，最好根据提取阈值或提取比率完成提取，提取的特征集用于之...

【技术保护点】

【技术特征摘要】
1.一种基于自动机器学习的自适应文本分类方法，其特征在于：所述方法包括以下步骤：S1：文本表达，将非结构化的文本文档表示为机器易于处理的形式，文本表达包括文本预处理和分词技术；S2：特征抽取；a、根据文本预处理和分词技术在在初始全特征集基础上变成一个特征子集；b、根据特征提取算法对特征的重要性进行评估；c、然后进行重要排序，最好根据提取阈值或提取比率完成提取，提取的特征集用于之后的训练和分类过程；S3：学习器训练和分类：a、获取分类任务对应的训练用提取特征集；b、根据特征集进行神经架构搜索，构建用于分类的神经网络模型；c、对构建好的神经网络模型进行训练；d、将待检测文本数据输入所述神经网络模型；S4：输出分类结果。2.根据权利要求1所述的基于自动机器学习的自适应文本分类方法，其特征在于：其中所述步骤S1中，还包括以下步骤：S1
‑
1：文本预处理：a、文档建模：能够高效地处理真实文本，一种理想的形式化表示方法，通用模型如布尔模型、布尔模型性、向量空间模型(VSM)；b、向量模型：D为一个包含m个文档的文档集合Di为第i个文档的特征向量，则有D＝{D1，D2，
…
，Dm}，Di＝(di1di2
…
dij)，i＝12，
…
，mj＝1，2，
…
，n。其中dij(i＝1,2，
…
，m；j＝1,2，
……
，n)；为文档Di中第j个词条tj的权值它一般被定义为tj在Di中出现的频率tij的函数，例如采用TF
‑
IDF函数，即dij＝tij*log(N/nj)。其中N是文档数据库中文总数，nj是文档数据库含有词条tj...

【专利技术属性】
技术研发人员：张晓荣，李岩，薛鹏程，
申请(专利权)人：国网甘肃省电力公司天水供电公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人