基于自动机器学习的自适应文本分类方法及装置制造方法及图纸

技术编号:38464369 阅读:15 留言:0更新日期:2023-08-11 14:41
本发明专利技术提供一种基于自动机器学习的自适应文本分类方法及装置,其特征在于:所述方法包括以下步骤:S1:文本表达;S2:特征抽取;S3:学习器训练和分类;S4:输出分类结果,所述装置包括输入模块、预处理模块、分词模块、提取模块、训练和分类模块,本发明专利技术针对不同的分类任务,自适应的搭建出最合适的模型架构,同时本发明专利技术考虑了字词信息的结合,以及模型架构的压缩,大幅度的提升了模型的精确度,实现高效率高效果,操作工艺简单,适应人工智能的发展。适应人工智能的发展。适应人工智能的发展。

【技术实现步骤摘要】
基于自动机器学习的自适应文本分类方法及装置


[0001]本专利技术主要涉及机器学习的
,具体为基于自动机器学习的自适应文本分类方法及装置。

技术介绍

[0002]随着人工智能领域的发展,人们对于文本分类的技术要求愈发提高,不论是作为OCR识别技术的后续处理程序,还是新闻分类,虚假新闻识别,垃圾邮件识别等需求,文本分类的精确性和对特定领域的适应性需求愈发的急迫。
[0003]在现有技术中,想要进行文本分类的识别任务,要考虑数据的预处理,模型的选择与搭建,实体信息的识别。目前主流做法是使用BERT等大规模预训练模型来做,但是这种方法模型过大,对算力要求很高,简易模型又在精确度和适用性上有所欠缺,并且专利技术人认为分类效率和效果较差,无法适应目前人工智能的发展。

技术实现思路

[0004]为了改善上述
技术介绍
的问题,本专利技术提供一种基于自动机器学习的自适应文本分类方法及装置。
[0005]本专利技术采用如下的技术方案:一种基于自动机器学习的自适应文本分类方法:所述方法包括以下步骤:
[0006]S1:文本表达,将非结构化的文本文档表示为机器易于处理的形式,文本表达包括文本预处理和分词技术;
[0007]S2:特征抽取;
[0008]d、根据文本预处理和分词技术在在初始全特征集基础上变成一个特征子集;
[0009]e、根据特征提取算法对特征的重要性进行评估;
[0010]f、然后进行重要排序,最好根据提取阈值或提取比率完成提取,提取的特征集用于之后的训练和分类过程;
[0011]S3:学习器训练和分类:
[0012]a、获取分类任务对应的训练用提取特征集;
[0013]b、根据特征集进行神经架构搜索,构建用于分类的神经网络模型;
[0014]c、对构建好的神经网络模型进行训练;
[0015]d、将待检测文本数据输入所述神经网络模型;
[0016]S4:输出分类结果。
[0017]进一步的,其中所述步骤S1中,还包括以下步骤:
[0018]S1—1:文本预处理:
[0019]c、文档建模:能够高效地处理真实文本,一种理想的形式化表示方法,通用模型如布尔模型、布尔模型性、向量空间模型(VSM);
[0020]d、向量模型:D为一个包含m个文档的文档集合Di为第i个文档的特征向量,则有D
={D1,D2,

,Dm},Di=(dildi2

dij),i=12,

,mj=1,2,

,n。其中dij(i=1,2,

,m;j=1,2,
……
,n);为文档Di中第j个词条tj的权值它一般被定义为tj在Di中出现的频率tij的函数,例如采用TF一IDF函数,即dij=tij*log(N/nj)。其中N是文档数据库中文总数,nj是文档数据库含有词条tj的文档数目。假设用户给定的文档向量为D2,未知的文档向量为q,两者的相似程度可用两向量的夹角余弦来度量,夹角越小说明相似度越高;通过上述向量空间模型,文本数据转换成机器可以处理的结构化数据。
[0021]S1—2:分词技术:
[0022]d、去掉一部分低频词,只在一两个文本中出现过;
[0023]e、去掉停止词,不携带任何信息;
[0024]f、去掉一部分标记信息,主要针对网页文本或其他标记语言文本。
[0025]根据本专利技术还提供一种基于自动机器学习的自适应文本分类装置,其特征在于,包括:
[0026]输入模块:将非结构化的文本文档表示为机器易于处理的形式,
[0027]预处理模块:能够高效地处理真实文本,一种理想的形式化表示方法,应用向量空间模型,通过向量空间模型,将文本数据转换成机器可以处理的结构化数据;
[0028]分词模块:去掉一部分低频词,只在一两个文本中出现过;去掉停止词,不携带任何信息;去掉一部分标记信息,主要针对网页文本或其他标记语言文本;
[0029]提取模块:根据文本预处理和分词技术在在初始全特征集基础上变成一个特征子集;根据特征提取算法对特征的重要性进行评估;然后进行重要排序,最好根据提取阈值或提取比率完成提取,提取的特征集;
[0030]训练和分类模块:获取分类任务对应的训练用提取特征集;根据特征集进行神经架构搜索,构建用于分类的神经网络模型;对构建好的神经网络模型进行训练;将待检测文本数据输入所述神经网络模型。
[0031]本专利技术还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至2任一项所述基于自动机器学习的自适应文本分类方法的步骤。
[0032]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至2任一项所述基于自动机器学习的自适应文本分类方法的步骤。
[0033]与现有技术相比,本专利技术的有益效果为:
[0034]本专利技术针对不同的分类任务,自适应的搭建出最合适的模型架构,同时本专利技术考虑了字词信息的结合,以及模型架构的压缩,大幅度的提升了模型的精确度,实现高效率高效果,操作工艺简单,适应人工智能的发展。
[0035]以下将结合附图与具体的实施例对本专利技术进行详细的解释说明。
附图说明
[0036]图1为本专利技术的原理示意图;
[0037]图2为本专利技术的装置示意图。
[0038]1、输入模块;2、预处理模块;3、分词模块;4、提取模块;5、训练和分类模块。
具体实施方式
[0039]为了便于理解本专利技术,下面将参照相关附图对本专利技术进行更加全面的描述,附图中给出了本专利技术的若干实施例,但是本专利技术可以通过不同的形式来实现,并不限于文本所描述的实施例,相反的,提供这些实施例是为了使对本专利技术公开的内容更加透彻全面。
[0040]需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上也可以存在居中的元件,当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件,本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
[0041]除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同,本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术,本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0042]请着重参照附图1,一种基于自动机器学习的自适应文本分类方法:所述方法包括以下步骤:
[0043]S1:文本表达,将非结构化的文本文档表示为机器易于处理的形式,文本表达包括文本预处理和分词技术;
[0044]S2:特征抽取;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自动机器学习的自适应文本分类方法,其特征在于:所述方法包括以下步骤:S1:文本表达,将非结构化的文本文档表示为机器易于处理的形式,文本表达包括文本预处理和分词技术;S2:特征抽取;a、根据文本预处理和分词技术在在初始全特征集基础上变成一个特征子集;b、根据特征提取算法对特征的重要性进行评估;c、然后进行重要排序,最好根据提取阈值或提取比率完成提取,提取的特征集用于之后的训练和分类过程;S3:学习器训练和分类:a、获取分类任务对应的训练用提取特征集;b、根据特征集进行神经架构搜索,构建用于分类的神经网络模型;c、对构建好的神经网络模型进行训练;d、将待检测文本数据输入所述神经网络模型;S4:输出分类结果。2.根据权利要求1所述的基于自动机器学习的自适应文本分类方法,其特征在于:其中所述步骤S1中,还包括以下步骤:S1

1:文本预处理:a、文档建模:能够高效地处理真实文本,一种理想的形式化表示方法,通用模型如布尔模型、布尔模型性、向量空间模型(VSM);b、向量模型:D为一个包含m个文档的文档集合Di为第i个文档的特征向量,则有D={D1,D2,

,Dm},Di=(di1di2

dij),i=12,

,mj=1,2,

,n。其中dij(i=1,2,

,m;j=1,2,
……
,n);为文档Di中第j个词条tj的权值它一般被定义为tj在Di中出现的频率tij的函数,例如采用TF

IDF函数,即dij=tij*log(N/nj)。其中N是文档数据库中文总数,nj是文档数据库含有词条tj...

【专利技术属性】
技术研发人员:张晓荣李岩薛鹏程
申请(专利权)人:国网甘肃省电力公司天水供电公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1