一种建立数据分类模型的方法和装置制造方法及图纸

技术编号：15791937 阅读：58 留言：0更新日期：2017-07-09 22:40

本发明专利技术公开了一种建立数据分类模型的方法和装置，包括：获取指定业务类型的源数据及该源数据的类别信息，建立多个分类模型；将测试分数最高的分类模型作为最优分类模型；其中，建立每个分类模型包括：从源数据中随机抽取部分数据；对所述部分数据进行分词；利用特征选择算法计算各词与各类别信息之间的关联值，将关联值高于第一预设值的词放入该类别信息的特征词集中；将各特征词集及其类别信息一同输入分类器中建立相应的分类模型。上述得到的多个分类模型之间的差别在于：从源数据中抽取出的数据、特征选择算法和/或分类器，因此从多个分类模型中选择得到的最优分类模型是综合考虑以上变化参数而得的最优分类策略，具有很高的准确性和稳定性。

全部详细技术资料下载

【技术实现步骤摘要】
一种建立数据分类模型的方法和装置
本专利技术涉及数据处理
，具体涉及一种建立数据分类模型的方法和装置。
技术介绍
文本分类技术，是一种基于统计学思想对文本信息进行分析，对不同类族的区域进行规则划分，最终创建出分类模型，使后续的文本能达到准确归类的一门技术，现在已经形成了比较成熟的计算体系，如文本特征化—分类模型创建—分类预测。现在的分类技术，采用了单一文本特选择算法进行文本特征化，得到特征文件，采用单一分类器读取特征文件进行分类模型创建和分类预测操作。该方案的缺点是：策略单一，针对不同领域和质量的训练数据，准确率和稳定性保障不了。
技术实现思路
鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的建立数据分类模型的方法和装置。依据本专利技术的一个方面，提供了一种建立数据分类模型的方法，该方法包括：获取指定业务类型的源数据及该源数据的类别信息，建立多个分类模型；分别对所述多个分类模型进行测试，将测试分数最高的分类模型作为最优分类模型，根据该最优分类模型对指定业务类型的数据进行分类；其中，建立每个分类模型包括：从源数据中随机抽取部分数据；对所述部分数据进行分词，得到多个词；对于每个类别信息，利用特征选择算法计算各词与该类别信息之间的关联值，将关联值高于第一预设值的词放入该类别信息的特征词集中；将各特征词集及其类别信息一同输入分类器中，利用分类器建立相应的分类模型。可选地，所述多个分类模型中包括：利用相同的特征选择算法和相同的分类器建立的多个分类模型；和/或，利用不同的特征选择算法和/或不同的分类器建立的多个分类模型。可选地，该方...
一种建立数据分类模型的方法和装置

【技术保护点】
一种建立数据分类模型的方法，其特征在于，该方法包括：获取指定业务类型的源数据及该源数据的类别信息，建立多个分类模型；分别对所述多个分类模型进行测试，将测试分数最高的分类模型作为最优分类模型，根据该最优分类模型对指定业务类型的数据进行分类；其中，建立每个分类模型包括：从源数据中随机抽取部分数据；对所述部分数据进行分词，得到多个词；对于每个类别信息，利用特征选择算法计算各词与该类别信息之间的关联值，将关联值高于第一预设值的词放入该类别信息的特征词集中；将各特征词集及其类别信息一同输入分类器中，利用分类器建立相应的分类模型。

【技术特征摘要】
1.一种建立数据分类模型的方法，其特征在于，该方法包括：获取指定业务类型的源数据及该源数据的类别信息，建立多个分类模型；分别对所述多个分类模型进行测试，将测试分数最高的分类模型作为最优分类模型，根据该最优分类模型对指定业务类型的数据进行分类；其中，建立每个分类模型包括：从源数据中随机抽取部分数据；对所述部分数据进行分词，得到多个词；对于每个类别信息，利用特征选择算法计算各词与该类别信息之间的关联值，将关联值高于第一预设值的词放入该类别信息的特征词集中；将各特征词集及其类别信息一同输入分类器中，利用分类器建立相应的分类模型。2.如权利要求1所述的方法，其特征在于，所述多个分类模型中包括：利用相同的特征选择算法和相同的分类器建立的多个分类模型；和/或，利用不同的特征选择算法和/或不同的分类器建立的多个分类模型。3.如权利要求2所述的方法，其特征在于，该方法进一步包括：提供用户输入接口，通过该用户输入接口接收用户输入的训练次数和期望值；所述建立多个分类模型包括：对于每个特征选择算法和每个分类器，利用该特征选择算法和该分类器建立符合所述训练次数的数量的分类模型；所述将测试分数最高的分类模型作为最优分类模型包括：将测试分数最高且满足期望值的分类模型作为最终的数据分类模型。4.如权利要求1所述的方法，其特征在于，在所述对所述部分数据进行分词操作之前，该方法进一步包括：提供用户输入接口，通过该用户输入接口接收用户输入的过滤规则；根据该过滤规则对所述部分数据进行过滤。5.如权利要求1所述的方法，其特征在于，所述分别对所述多个分类模型进行测试包括：获取多个测试数据及各测试数据的类别信息；对于每个分类模型，分别将各测试数据输入到该分类模型中，得到该分类模型对各测试数据的分类结果；将所述多个测试数据中分类结果命中相应的...

【专利技术属性】
技术研发人员：赵磊，吕伟胜，梁德兴，
申请(专利权)人：北京神州泰岳软件股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人