当前位置: 首页 > 专利查询>吉林大学专利>正文

一种基于人工智能的集成学习分类方法技术

技术编号:35918125 阅读:39 留言:0更新日期:2022-12-10 11:01
本发明专利技术公开了一种基于人工智能的集成学习分类方法,涉及集成学习分类技术领域,包括以下步骤:对反馈文本进行收集;S2:对待测样本进行文本特征提取,然后得到文本特征向量;通过集成分类器对待测样本进行分类,得到待测样本的分类结果;同时根据设定关键字对文本信息进行提取,然后根据文本信息提取结果进行分析,得到待测样本的分类结果;若两次待测样本的分类结果并不相同,则对该待测样本重新进行检测,若两次待测样本的分类结果相同,则确定最终分类结果,对最终分类结果进行输出,从而提高了反馈文本的集成分类准确度。提高了反馈文本的集成分类准确度。提高了反馈文本的集成分类准确度。

【技术实现步骤摘要】
一种基于人工智能的集成学习分类方法


[0001]本专利技术涉及集成学习分类
,具体为一种基于人工智能的集成学习分类方法。

技术介绍

[0002]集成学习是近年来数据挖掘和机器学习领域的研究热点之一,它在处理数据挖掘、智能交通系统、生物信息等领域的各种类型的真实数据具有有效性。集成学习就是将多个弱学习器进行组合,从而获得比单个学习器显著优越的泛化性能。要获得好的集成模型,个体学习器应该“好而不同”,也就是个体学习器要有一定的准确性,并且要有多样性,即学习器之间具有差异。
[0003]目前企业进行客户反馈工单分类的方法主要是采用文本挖掘和人工智能算法建立反馈识别系统,对反馈工单进行智能分类,从而保证在短时间内将反馈工单分配给合适的技术支撑部门进行处理。由于客户反馈文本的长度短,数量大,而引起反馈的原因又多种多样。采用传统的文本分类方法在处理短文本分类任务时就遇到了很大的困难,分类准确性低,效果差。因此我们提出了一种基于人工智能的集成学习分类方法。

技术实现思路

[0004]针对现有技术的不足,本专利技术提供了一种基于人工智能的集成学习分类方法,包括以下步骤:
[0005]S1:对反馈文本进行收集,形成待测样本;
[0006]S2:对待测样本进行文本特征提取,然后得到文本特征向量;
[0007]S3:通过集成分类器对待测样本进行分类,得到待测样本的分类结果;
[0008]S4:在进行S2的同时,根据设定关键字对待测样本文本信息进行提取;
[0009]S5:根据文本信息提取结果进行分析,得到待测样本的分类结果;
[0010]S6:对两次待测样本的分类结果进行分析判断,确定最终分类结果;
[0011]S7:对最终分类结果进行输出。
[0012]可选的,所述S1对反馈文本进行收集,形成待测样本的步骤包括:
[0013]S11:对反馈文本进行预处理,使反馈文本格式统一,得到优化后的反馈文本;
[0014]S12:对反馈文本进行文本相似度检测,获得有效反馈文本,形成待测样本。
[0015]进一步的,所述S12对反馈文本进行文本相似度检测,获得有效反馈文本的步骤中,通过对收集的反馈文本中的重复文本进行文本相似度检测,将重复文本整合成有效文本,获得有效反馈文本。
[0016]可选的,所述S3通过集成分类器对待测样本进行分类,得到待测样本的分类结果的步骤包括:
[0017]S31:从历史数据库中获取反馈文本数据集,并将反馈文本数据集分成训练样本集和测试样本集;
[0018]S32:从训练样本集中取用不同的子训练样本集对集成分类器中不同类型的分类器分别进行训练,并基于测试样本集对训练好的各分类器分别进行分类测试,得到各分类器的分类结果;
[0019]S33:对各分类器进行优化,得到训练好的集成分类器;
[0020]S34:通过训练好的集成分类器对待测样本进行分类,得到待测样本的分类结果。
[0021]进一步的,所述的集成分类器包含四种机器学习方法,包括逻辑回归、朴素贝叶斯、支持向量机以及随机森林,投票策略为简单投票。
[0022]假设n个基分类器的出错率都是ε,且相互独立,则n个基分类器的结果中,出现k个错误的数量服从二项分布,对集成模型来说,n个结果中,有k个错误的概率是:
[0023][0024]可选的,所述S4根据设定关键字对待测样本文本信息进行提取的步骤中,根据需要对关键字进行设置,关键字的设置遵循能够反映出文本信息的内容。
[0025]可选的,所述S5根据文本信息提取结果进行分析,得到待测样本的分类结果步骤中,根据从文本信息中提取出来的关键字,对待测样本进行分类。
[0026]可选的,所述S6对两次待测样本的分类结果进行分析判断的步骤中,若两次待测样本的分类结果不相同,则对该待测样本重新进行检测分类;若两次待测样本的分类结果相同,则得到最终分类结果。
[0027]本专利技术的有益效果:
[0028]本专利技术基于人工智能的集成学习分类方法,通过对待测样本进行文本特征提取,然后得到文本特征向量,通过集成分类器对待测样本进行分类,得到待测样本的分类结果;同时根据设定关键字对文本信息进行提取,然后根据文本信息提取结果进行分析,得到待测样本的分类结果;若两次待测样本的分类结果并不相同,则对该待测样本重新进行检测分类;若两次待测样本的分类结果相同,则确定最终分类结果,对最终分类结果进行输出。本专利技术通过不断进行反馈文本的分类,从而使得集成分类器进行不断学习优化,进而得到训练好的集成分类器;采用集成分类器分类和文本信息分类两种分类方法比较分析确定最终分类结果,对最终分类结果进行输出,显著的降低了错误概率,从而提高反馈文本的集成分类准确度。
附图说明
[0029]图1为本专利技术方法结构示意图;
[0030]图2为本专利技术所述S1的步骤示意图;
[0031]图3为本专利技术所述S3的步骤示意图。
具体实施方式
[0032]本专利技术提供了一种基于人工智能的集成学习分类方法,包括以下步骤:
[0033]S1:从数据云中对反馈文本进行收集,形成待测样本;
[0034]S11:对采集的反馈文本进行预处理,使反馈文本格式统一,得到优化后的反馈文本;
[0035]S12:对反馈文本进行文本相似度检测,获得有效反馈文本,形成待测样本,其中,通过对收集的反馈文本中的重复文本进行文本相似度检测,将重复文本整合成有效文本,获得有效反馈文本。
[0036]S2:对待测样本进行文本特征提取,然后得到文本特征向量。
[0037]S3:通过集成分类器对待测样本进行分类,得到待测样本的分类结果;
[0038]S31:从历史数据库中获取反馈文本数据集,并将反馈文本数据集分成训练样本集和测试样本集;
[0039]S32:从训练样本集中取用不同的子训练样本集对集成分类器中不同类型的分类器分别进行训练,并基于测试样本集对训练好的各分类器分别进行分类测试,得到各分类器的分类结果;
[0040]S33:对各分类器进行优化,得到训练好的集成分类器;
[0041]S34:通过训练好的集成分类器对待测样本进行分类,得到待测样本的分类结果。
[0042]所述的集成分类器包含四种机器学习方法包括逻辑回归、朴素贝叶斯、支持向量机以及随机森林,投票策略为简单投票。
[0043]假设n个基分类器的出错率都是ε,且相互独立,则n个基分类器的结果中,出现k个错误的数量服从二项分布,对集成模型来说,n个结果中,有k个错误的概率是:
[0044][0045]可得集成学习方式显著的降低了错误概率。
[0046]S4:在进行S2的同时,根据需要对关键字进行设置,根据设定关键字对待测样本文本信息进行提取;关键字的设置遵循能够反映出文本信息的内容。
[0047]S5:根据从文本信息中提取出来的关键字,对待测样本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的集成学习分类方法,其特征在于:包括以下步骤:S1:对反馈文本进行收集,形成待测样本;S2:对待测样本进行文本特征提取,然后得到文本特征向量;S3:通过集成分类器对待测样本进行分类,得到待测样本的分类结果;S4:在进行S2的同时,根据设定关键字对待测样本文本信息进行提取;S5:根据文本信息提取结果进行分析,得到待测样本的分类结果;S6:对两次待测样本的分类结果进行分析判断,确定最终分类结果;S7:对最终分类结果进行输出。2.根据权利要求1所述的一种基于人工智能的集成学习分类方法,其特征在于:所述S1对反馈文本进行收集,形成待测样本的步骤包括:S11:对反馈文本进行预处理,使反馈文本格式统一,得到优化后的反馈文本;S12:对反馈文本进行文本相似度检测,获得有效反馈文本,形成待测样本。3.根据权利要求2所述的一种基于人工智能的集成学习分类方法,其特征在于:所述S12对反馈文本进行文本相似度检测,获得有效反馈文本的步骤中,通过对收集的反馈文本中的重复文本进行文本相似度检测,将重复文本整合成有效文本,获得有效反馈文本。4.根据权利要求1所述的一种基于人工智能的集成学习分类方法,其特征在于:所述S3通过集成分类器对待测样本进行分类,得到待测样本的分类结果的步骤包括:S31:从历史数据库中获取反馈文本数据集,并将反馈文本数据集分成训练样本集和测试样本集;S32:从训练样本集中取用不同的子训练样本集对集成...

【专利技术属性】
技术研发人员:王芳荣王昕宇常志勇孔铖栾祥宇白东升
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1