一种建立数据分类模型的方法和装置制造方法及图纸

技术编号:15791937 阅读:58 留言:0更新日期:2017-07-09 22:40
本发明专利技术公开了一种建立数据分类模型的方法和装置,包括:获取指定业务类型的源数据及该源数据的类别信息,建立多个分类模型;将测试分数最高的分类模型作为最优分类模型;其中,建立每个分类模型包括:从源数据中随机抽取部分数据;对所述部分数据进行分词;利用特征选择算法计算各词与各类别信息之间的关联值,将关联值高于第一预设值的词放入该类别信息的特征词集中;将各特征词集及其类别信息一同输入分类器中建立相应的分类模型。上述得到的多个分类模型之间的差别在于:从源数据中抽取出的数据、特征选择算法和/或分类器,因此从多个分类模型中选择得到的最优分类模型是综合考虑以上变化参数而得的最优分类策略,具有很高的准确性和稳定性。

【技术实现步骤摘要】
一种建立数据分类模型的方法和装置
本专利技术涉及数据处理
,具体涉及一种建立数据分类模型的方法和装置。
技术介绍
文本分类技术,是一种基于统计学思想对文本信息进行分析,对不同类族的区域进行规则划分,最终创建出分类模型,使后续的文本能达到准确归类的一门技术,现在已经形成了比较成熟的计算体系,如文本特征化—分类模型创建—分类预测。现在的分类技术,采用了单一文本特选择算法进行文本特征化,得到特征文件,采用单一分类器读取特征文件进行分类模型创建和分类预测操作。该方案的缺点是:策略单一,针对不同领域和质量的训练数据,准确率和稳定性保障不了。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的建立数据分类模型的方法和装置。依据本专利技术的一个方面,提供了一种建立数据分类模型的方法,该方法包括:获取指定业务类型的源数据及该源数据的类别信息,建立多个分类模型;分别对所述多个分类模型进行测试,将测试分数最高的分类模型作为最优分类模型,根据该最优分类模型对指定业务类型的数据进行分类;其中,建立每个分类模型包括:从源数据中随机抽取部分数据;对所述部分数据进行分词,得到多个词;对于每个类别信息,利用特征选择算法计算各词与该类别信息之间的关联值,将关联值高于第一预设值的词放入该类别信息的特征词集中;将各特征词集及其类别信息一同输入分类器中,利用分类器建立相应的分类模型。可选地,所述多个分类模型中包括:利用相同的特征选择算法和相同的分类器建立的多个分类模型;和/或,利用不同的特征选择算法和/或不同的分类器建立的多个分类模型。可选地,该方法进一步包括:提供用户输入接口,通过该用户输入接口接收用户输入的训练次数和期望值;所述建立多个分类模型包括:对于每个特征选择算法和每个分类器,利用该特征选择算法和该分类器建立符合所述训练次数的数量的分类模型;所述将测试分数最高的分类模型作为最优分类模型包括:将测试分数最高且满足期望值的分类模型作为最终的数据分类模型。可选地,在所述对所述部分数据进行分词操作之前,该方法进一步包括:提供用户输入接口,通过该用户输入接口接收用户输入的过滤规则;根据该过滤规则对所述部分数据进行过滤。可选地,所述分别对所述多个分类模型进行测试包括:获取多个测试数据及各测试数据的类别信息;对于每个分类模型,分别将各测试数据输入到该分类模型中,得到该分类模型对各测试数据的分类结果;将所述多个测试数据中分类结果命中相应的类别信息的概率作为该分类模型的测试分数。可选地,所述利用特征选择算法计算各词与该类别信息之间的关联值包括:对于每个词,利用CHI算法或CLOSE算法计算该词与该类别信息之间的关联值。可选地,所述将各特征词集与对应的类别信息一同输入分类器中包括:将各特征词集与对应的类别信息一同输入LibLinear分类器或LibSVM分类器中。依据本专利技术的另一个方面,提供了一种建立数据分类模型的装置,该装置包括:数据获取单元,适于获取指定业务类型的源数据及该源数据的类别信息,模型建立单元,适于根据所获取的源数据及源数据的类别信息,建立多个分类模型;其中,建立每个分类模型包括:从源数据中随机抽取部分数据;对所述部分数据进行分词,得到多个词;对于每个类别信息,利用特征选择算法计算各词与该类别信息之间的关联值,将关联值高于第一预设值的词放入该类别信息的特征词集中;将各特征词集及其类别信息一同输入分类器中,利用分类器建立相应的分类模型;模型选择单元,适于分别对所述多个分类模型进行测试,将测试分数最高的分类模型作为最优分类模型,根据该最优分类模型对指定业务类型的数据进行分类。可选地,所述多个分类模型中包括:利用相同的特征选择算法和相同的分类器建立的多个分类模型;和/或,利用不同的特征选择算法和/或不同的分类器建立的多个分类模型。可选地,数据获取单元,进一步适于提供用户输入接口,通过该用户输入接口接收用户输入的训练次数和期望值;模型建立单元,适于对于每个特征选择算法和每个分类器,利用该特征选择算法和该分类器建立符合所述训练次数的数量的分类模型;模型选择单元,适于将测试分数最高且满足期望值的分类模型作为最终的数据分类模型。可选地,数据获取单元,进一步适于提供用户输入接口,通过该用户输入接口接收用户输入的过滤规则;模型建立单元,进一步适于在所述对所述部分数据进行分词操作之前,根据该过滤规则对所述部分数据进行过滤。可选地,模型选择单元,适于获取多个测试数据及各测试数据的类别信息;对于每个分类模型,分别将各测试数据输入到该分类模型中,得到该分类模型对各测试数据的分类结果;将所述多个测试数据中分类结果命中相应的类别信息的概率作为该分类模型的测试分数。可选地,模型建立单元,适于对于每个词,利用CHI算法或CLOSE算法计算该词与该类别信息之间的关联值。可选地,模型建立单元,适于将各特征词集与对应的类别信息一同输入LibLinear分类器或LibSVM分类器中。由上述可知,本专利技术提供的技术方案对于指定业务类型,获取源数据及源数据的类别信息,通过抽取数据、分词、计算各类别信息对应的特征词集、输入分类器进行学习一系列运算过程得到相应的分类模型,多次运算即得到多个分类模型,分别对多个分类模型进行测试以挑选出测试结果最好的分类模型作为最优分类模型,以对指定业务类型的其他数据进行分类。依据本方案,得到的多个分类模型之间的差别在于:从源数据中抽取出的数据的不同、所利用的特征选择算法的不同、和/或所利用的分类器的不同,因此从多个分类模型中选择得到的最优分类模型是综合考虑以上变化参数而得的最优分类策略,具有很高的准确性和稳定性。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术一个实施例的一种建立数据分类模型的方法的流程图;图2示出了根据本专利技术一个实施例的一种建立数据分类模型的装置的示意图。具体实施方式下面将参照附图更详细地描述本专利技术的示例性实施例。虽然附图中显示了本专利技术的示例性实施例,然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本专利技术,并且能够将本专利技术的范围完整的传达给本领域的技术人员。图1示出了根据本专利技术一个实施例的一种建立数据分类模型的方法的流程图。如图1所示,该方法包括:步骤S110,获取指定业务类型的源数据及该源数据的类别信息,建立多个分类模型。步骤S120,分别对所述多个分类模型进行测试,将测试分数最高的分类模型作为最优分类模型,根据该最优分类模型对指定业务类型的数据进行分类。其中,步骤S110建立每个分类模型的过程为:步骤S112,从源数据中随机抽取部分数据。步骤S114,对所述部分数据进行分词,得到多个词。步骤S116,对于每个类别信息,利用特征选本文档来自技高网...
一种建立数据分类模型的方法和装置

【技术保护点】
一种建立数据分类模型的方法,其特征在于,该方法包括:获取指定业务类型的源数据及该源数据的类别信息,建立多个分类模型;分别对所述多个分类模型进行测试,将测试分数最高的分类模型作为最优分类模型,根据该最优分类模型对指定业务类型的数据进行分类;其中,建立每个分类模型包括:从源数据中随机抽取部分数据;对所述部分数据进行分词,得到多个词;对于每个类别信息,利用特征选择算法计算各词与该类别信息之间的关联值,将关联值高于第一预设值的词放入该类别信息的特征词集中;将各特征词集及其类别信息一同输入分类器中,利用分类器建立相应的分类模型。

【技术特征摘要】
1.一种建立数据分类模型的方法,其特征在于,该方法包括:获取指定业务类型的源数据及该源数据的类别信息,建立多个分类模型;分别对所述多个分类模型进行测试,将测试分数最高的分类模型作为最优分类模型,根据该最优分类模型对指定业务类型的数据进行分类;其中,建立每个分类模型包括:从源数据中随机抽取部分数据;对所述部分数据进行分词,得到多个词;对于每个类别信息,利用特征选择算法计算各词与该类别信息之间的关联值,将关联值高于第一预设值的词放入该类别信息的特征词集中;将各特征词集及其类别信息一同输入分类器中,利用分类器建立相应的分类模型。2.如权利要求1所述的方法,其特征在于,所述多个分类模型中包括:利用相同的特征选择算法和相同的分类器建立的多个分类模型;和/或,利用不同的特征选择算法和/或不同的分类器建立的多个分类模型。3.如权利要求2所述的方法,其特征在于,该方法进一步包括:提供用户输入接口,通过该用户输入接口接收用户输入的训练次数和期望值;所述建立多个分类模型包括:对于每个特征选择算法和每个分类器,利用该特征选择算法和该分类器建立符合所述训练次数的数量的分类模型;所述将测试分数最高的分类模型作为最优分类模型包括:将测试分数最高且满足期望值的分类模型作为最终的数据分类模型。4.如权利要求1所述的方法,其特征在于,在所述对所述部分数据进行分词操作之前,该方法进一步包括:提供用户输入接口,通过该用户输入接口接收用户输入的过滤规则;根据该过滤规则对所述部分数据进行过滤。5.如权利要求1所述的方法,其特征在于,所述分别对所述多个分类模型进行测试包括:获取多个测试数据及各测试数据的类别信息;对于每个分类模型,分别将各测试数据输入到该分类模型中,得到该分类模型对各测试数据的分类结果;将所述多个测试数据中分类结果命中相应的...

【专利技术属性】
技术研发人员:赵磊吕伟胜梁德兴
申请(专利权)人:北京神州泰岳软件股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1