一种基于机器学习的数据分类方法及系统技术方案

技术编号：22595675 阅读：20 留言：0更新日期：2019-11-20 11:34

本发明专利技术公开了一种基于机器学习的数据分类方法，涉及数据处理技术领域，其包括以下步骤：S1，收集待分类的原始数据，将收集到的所有原始数据保存在数据库中；S2，对数据库内的数据进行分析，提取出其中的关键词，将关键词导入到已经预先训练好的SVM模型中，获得分类识别结果；S3，结果分析模块对上述分类识别结果进行识别，提取出其中的有效的分类识别结果，称之为有效结果，将有效结果所对应的数据库内的原始数据导入到对应的子数据库中，本发明专利技术的有益效果是：通过SVM模型可以有效的对数据进行分类识别，效率较高，同时其通过设置的数据分析模块能有效的对结果正确性进行判定，以实现学习及更新识别机制，在后期的识别中更加精确。

A data classification method and system based on machine learning

The invention discloses a data classification method based on machine learning, which relates to the technical field of data processing, and comprises the following steps: S1, collecting the original data to be classified, and saving all the collected original data in the database; S2, analyzing the data in the database, extracting the key words therein, and importing the key words into the SVM model that has been trained in advance To obtain the classification and recognition results; S3, the result analysis module identifies the above classification and recognition results, extracts the effective classification and recognition results, which are called the effective results, and imports the original data in the database corresponding to the effective results into the corresponding sub database. The beneficial effect of the invention is that the data can be effectively classified and recognized through the SVM model, At the same time, it can effectively determine the correctness of the results through the data analysis module, so as to realize the learning and updating recognition mechanism, which is more accurate in the later recognition.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习的数据分类方法及系统
本专利技术涉及数据处理
，具体是一种基于机器学习的数据分类方法及系统。
技术介绍
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着互联网技术的发展，大数据是广大企业获取用户生活习惯、购买力等各项信息的主要来源。在电商平台中，用户购买产品后的评论对卖家至关重要，甚至可以决定商户的生存，因此及时的浏览回复评论是电商日常的重要工作。但是由于评论量大，商户没有精力进行逐个浏览、回复等操作，因而错过了某些差评，造成用户群体的损失。基于此，本申请提出了一种基于机器学习的数据分类方法及系统，来方便对这些评论数据等进行分类，使得商户有精力集中处理差评等评论。
技术实现思路
本专利技术的目的在于提供一种基于机器学习的数据分类方法及系统，以解决上述
技术介绍
中提出的问题。为实现上述目的，本专利技术提供如下技术方案：一种基于机器学习的数据分类方法，包括以下步骤：S1，收集待分类的原始数据，将收集到的所有原始数据保存在数据库中；S2，对数据库内的数据进行分析，提取出其中的关键词，将关键词导入到已经预先训练好的SVM模型中，获得分类识别结果；S3，结果分析模块对上述分类识别结果进行识别，提取出其中的有效的分类识别结果，称之为有效结果，将有效结果所对应的数据库内的原始数据导入到对应的子数据库中。>作为本专利技术进一步的方案：步骤S2中，若提取出的关键词具有多个，则为每个关键词均赋予权重，同一数据得到的关键词，其权重之和为1。作为本专利技术进一步的方案：所述结果分析模块还将有效结果输出给SVM模型，进行权重的训练和更新。作为本专利技术再进一步的方案：所述SVM模型采用线性核函数。一种基于机器学习的数据分类系统，包括中央处理器、数据库、SVM模型、结果分析模块、子数据库和数据分析模块，所述数据库，用于储存待分类的原始数据，并在收到中央处理器的指令后，供数据分析模块调用；数据分析模块，用于对原始数据进行分析，提取出其中的一个或若干个关键词；SVM模型，对提取出的关键词进行训练，当关键词的数量大于一个时，为每个关键词赋予权重，获得分类识别结果；结果分析模块，对SVM模型所得的分类识别结果进行识别分析，获得出其中的有效分类识别结果，将其所对应的数据库内的原始数据导入到对应的子数据库中。作为本专利技术进一步的方案：所述结果分析模块还将有效分类识别结果所对应的权重赋予输入到SVM模型，进行权重的训练和更新。作为本专利技术进一步的方案：所述数据库还通过通讯模块与云端数据库通讯，通过网络从云端数据库中获取原始数据。与现有技术相比，本专利技术的有益效果是：通过SVM模型可以有效的对数据进行分类识别，效率较高，同时其通过设置的数据分析模块能有效的对结果正确性进行判定，以实现学习及更新识别机制，在后期的识别中更加精确。附图说明图1为一种基于机器学习的数据分类方法的流程图。图2为一种基于机器学习的数据分类方法中结果分析的流程图。图3为一种基于机器学习的数据分类系统的结构示意图。图中：1-中央处理器、2-数据库、3-SVM模型、4-结果分析模块、5-子数据库、6-数据分析模块、7-通讯模块、8-云端数据库。具体实施方式这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本实施例公开的一些方面相一致的装置和方法的例子。实施例1请参阅图1～2，本专利技术实施例中，一种基于机器学习的数据分类方法，包括以下步骤：S1，收集待分类的原始数据，将收集到的所有原始数据保存在数据库中，当然，在实际应用时，数据库既可以建立在本地，也可以通过网络从云端数据库中获取原始数据，此处不对其进行具体的限定；S2，对数据库内的数据进行分析，提取出其中的关键词，将关键词导入到已经预先训练好的SVM模型中，获得分类识别结果，例如在实际应用，对于买家的评论“这个隔离霜使用起来效果很好”，那么其“效果很好”就是其识别的关键词，将其导入至训练好的SVM模型时，其输出的结果就是对应的“好评”，此处，作为优选的，SVM模型采用线性核函数；S3，结果分析模块对上述分类识别结果进行识别，提取出其中的有效的分类识别结果，称之为有效结果，将有效结果所对应的数据库内的原始数据导入到对应的子数据库中，结果分析模块的作用就是判定分类识别结果的正确性，例如对于买家的评论“这个隔离霜使用起来效果很好”，其输出的结果是“差评”或者是“中评”，这就意味着这个SVM模型存在误差或错误，因此其分类识别结果也是错误的，该条数据的处理就存在问题；若SVM模型的判定结果是正确的，那么此时可以将对应的这个评论导入到“好评”子数据库中，适当的时候卖家可以推送给这类买家群里一些优惠券或者活动信息等。然而，当买家的评论较长时，存在多个关键词较多时，此时为每个关键词均赋予权重，当然，同一数据或者说同一条评论的权重之和是1，例如，“这个隔离霜很好，但是就是量稍微有点少”，那么其提取出的关键词可以为“很好”、“但是”、“量稍微有点少”，可以为其分别赋予权重0.6、0.2和0.2，之后再将其导入到SVM模型中进行训练。如果说结果分析模块得到该训练结果是正确有效的，即有效结果，可以将此权重赋予方式进行记录，并同步进行训练和更新。实施例2请参阅图3，本专利技术实施例中，一种基于机器学习的数据分类系统，包括中央处理器1、数据库2、SVM模型3、结果分析模块4、子数据库5和数据分析模块6，所述数据库2，用于储存待分类的原始数据，并在收到中央处理器1的指令后，供数据分析模块6调用；数据分析模块6，用于对原始数据进行分析，提取出其中的一个或若干个关键词；SVM模型3，对提取出的关键词进行训练，当关键词的数量大于一个时，为每个关键词赋予权重，获得分类识别结果；结果分析模块4，对SVM模型3所得的分类识别结果进行识别分析，获得出其中的有效分类识别结果，将其所对应的数据库内的原始数据导入到对应的子数据库5中。具体的来说，结果分析模块4还将有效分类识别结果所对应的权重赋予输入到SVM模型，进行权重的训练和更新，以保证本技术方案具有学习效果，在后期的识别中更加精确。此外，所述数据库2还通过通讯模块7与云端数据库8通讯，即可以通过网络从云端数据库中获取原始数据。需要特别说明的是，本技术方案中，通过SVM模型可以有效的对数据进行分类识别，效率较高，同时其通过设置的数据分析模块6能有效的对结果正确性进行判定，以实现学习及更新识别机制，在后期的识别中更加精确。...

【技术保护点】
1.一种基于机器学习的数据分类方法，其特征在于，包括以下步骤：/nS1，收集待分类的原始数据，将收集到的所有原始数据保存在数据库中；/nS2，对数据库内的数据进行分析，提取出其中的关键词，将关键词导入到已经预先训练好的SVM模型中，获得分类识别结果；/nS3，结果分析模块对上述分类识别结果进行识别，提取出其中的有效的分类识别结果，称之为有效结果，将有效结果所对应的数据库内的原始数据导入到对应的子数据库中。/n

【技术特征摘要】
1.一种基于机器学习的数据分类方法，其特征在于，包括以下步骤：
S1，收集待分类的原始数据，将收集到的所有原始数据保存在数据库中；
S2，对数据库内的数据进行分析，提取出其中的关键词，将关键词导入到已经预先训练好的SVM模型中，获得分类识别结果；
S3，结果分析模块对上述分类识别结果进行识别，提取出其中的有效的分类识别结果，称之为有效结果，将有效结果所对应的数据库内的原始数据导入到对应的子数据库中。

2.根据权利要求1所述的一种基于机器学习的数据分类方法，其特征在于，步骤S2中，若提取出的关键词具有多个，则为每个关键词均赋予权重，同一数据得到的关键词，其权重之和为1。

3.根据权利要求2所述的一种基于机器学习的数据分类方法，其特征在于，所述结果分析模块还将有效结果输出给SVM模型，进行权重的训练和更新。

4.根据权利要求1或2或3所述的一种基于机器学习的数据分类方法，其特征在于，所述SVM模型采用线性核函数。

【专利技术属性】
技术研发人员：刘春英，
申请(专利权)人：菏泽学院，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人