一种基于关联规则算法及朴素贝叶斯法的葡萄酒分类方法技术

技术编号:17838156 阅读:129 留言:0更新日期:2018-05-03 19:38
本发明专利技术公开了一种基于关联规则算法及朴素贝叶斯法的葡萄酒分类方法,包括如下步骤:采集待分类红酒的属性信息,其中,属性信息包括关键属性信息;使用关联规则算法基于属性信息生成强关联规则;使用朴素贝叶斯法基于强关联规则提取关键属性信息;使用朴素贝叶斯计算关键属性信息的权重并对关键属性信息加权;使用朴素贝叶斯法基于加权后的关键属性信息对待分类红酒进行分类。本发明专利技术降低了属性之间的依赖关系,减少了相关性较强的非分类属性以及影响方向相似的条件属性,只使用对分类产生效果的关键属性进行分类,提高了分类的准确性,并且通过得出的关联规则求出关键属性所占权重对该属性进行加权,解决了各个属性所占的权重不同的问题。

A wine classification method based on association rules algorithm and naive Bayes method

The invention discloses a wine classification method based on association rule algorithm and naive Bayes method, which includes the following steps: collecting the attribute information of the red wine to be classified, among which the attribute information includes the key attribute information; the association rule algorithm is used to generate strong association rules based on the attribute information; and the simple Bias Faki is used. The Yu Qiang association rule extracts the key attribute information; uses the naive Bayes to calculate the weight of the key attribute information and weights the key attribute information; uses the naive Bayes method to classify the classified red wine based on the weighted key attribute information. The invention reduces the dependence between attributes, reduces the non categorical attributes that have strong correlation and affects the condition attributes of the same direction, and classifies the key attributes of the classification effect only, improves the accuracy of the classification, and finds out the weight of the key attributes to the attribute by the association rules obtained. Weighting is used to solve the problem of different weights of each attribute.

【技术实现步骤摘要】
一种基于关联规则算法及朴素贝叶斯法的葡萄酒分类方法
本专利技术属于葡萄酒分类
,具体涉及一种基于关联规则算法及朴素贝叶斯法的葡萄酒分类方法。
技术介绍
贝叶斯算法实际上是一种分类方法,跟统计学中通过计算概率来对所统计的数据进行分类的方法类似。而朴素贝叶斯算法是在贝叶斯定理的基础上,降低了待分类项属性值之间独立性假设的一种算法。在所有的机器学习分类算法里面,朴素贝叶斯算法在很大程度区别于其他的分类算法。常见的机器学习分类算法有KNN,Logistic回归,SVM支持向量机,决策树等,对于这些算法,它们往往是通过学习得出特征输出y和特征项x直接的关系,或者通过决策函数和条件分布来分类,过程往往十分的复杂。相对于这些分类算法,朴素贝叶斯分类算法具有简单、易用并且效率高的优势,并且在一些领域的分类问题中发挥着完全不弱于神经网络、决策树的分类能力。简而言之,朴素贝叶斯算法的思想就是假设待分类项的属性之间相互独立,并根据先验概率计算变量X属于某个类别的后验概率,其中先验概率是指事件发生前的预判概率,一般是单独事件概率,后验概率是指基于先验概率求得的反向条件概率。朴素贝叶斯模型不同于决策树模型,它源自于古典数学理论,有着稳定的分类效率。Apriori算法(关联规则算法)是基于频繁项集的关联分析,它通过逐层迭代搜索的方法找到频繁项集(即该项集的支持度大于设定的最小支持度阙值)来发现强关联规则。Apriori的算法思想可以分为两步:第一步是自连接获取候选集,就是从数据集D中找出“1-项集”的集合,记为L1,并按顺序链接找出“2-项集”,直到不能找到“K-项集”为止。第二步是剪枝步,是使任一频繁项集的所有非空子集也必须是频繁项集,反之如果某候选集的非空子集不是频繁的,那么该候选集也一定不是频繁项集。Apriori算法通过这两步减少了计算量,提高了算法的效率。但是朴素贝叶斯之所以方便是因为它假设待分类项的n个维度都是相互独立的,而我们知道,在现实生活中这样的假设存在很大的漏洞,在很多情况下是不可能存在的,属性之间多多少少会存在一些联系,这就导致了朴素贝叶斯分类的结果出现偏差。例如在对葡萄酒进行分类的过程中,我们能够采集到葡萄酒的酒精浓度、水、密度、酸碱度、硫酸钾、果酸、甘油、单宁和色素、氯化钠、糖分、柠檬酸、挥发性酸等属性,然而并不是所有这些属性都会对葡萄酒类别的区分起到效果,而采用传统的朴素贝叶斯方法进行分类,会将所有这些属性都考虑在内来对葡萄酒进行分类,其分类结果容易出现偏差。因此,如何在对葡萄酒进行分类的过程中,去掉那些对葡萄酒类别不产生影响的属性成为了本领域技术人员急需解决的问题。
技术实现思路
针对现有技术中存在的上述不足,本专利技术需要解决的问题是:如何在对葡萄酒进行分类的过程中,去掉那些对葡萄酒类别不产生影响的属性。为解决上述技术问题,本专利技术采用了如下的技术方案:一种基于关联规则算法及朴素贝叶斯法的葡萄酒分类方法,包括如下步骤:采集待分类红酒的属性信息,其中,所述属性信息包括关键属性信息;使用关联规则算法基于所述属性信息生成强关联规则;使用朴素贝叶斯法基于所述强关联规则提取所述关键属性信息;使用朴素贝叶斯计算所述关键属性信息的权重并对所述关键属性信息加权;使用朴素贝叶斯法基于加权后的关键属性信息对所述待分类红酒进行分类。优选地,所述采集待分类红酒的属性信息包括:采集所述待分类红酒的初始信息;对所述初始信息进行预处理生成所述属性信息。优选地,所述对所述初始信息进行预处理生成所述属性信息包括:清除初始信息中超出预设属性范围的异常属性信息;使用补全所述初始信息中的缺失信息生成所述属性信息。优选地,所述强关联规则包括第一关联规则及第二关联规则,其中,所述第一关联规则为属性信息与类别信息的关联规则,所述第二关联规则为不同属性信息之间的关联规则,所述使用朴素贝叶斯法基于所述强关联规则提取所述关键属性信息包括:判断所述第一关联规则的置信度是否满足预设置信度范围;当所述第一关联规则的置信度满足预设置信度范围的范围时,判断所述第一关联规则中的属性信息为关键属性信息;当第二关联规则中的一个属性信息为关键属性信息时,判断所述第二关联规则中的所有属性信息均为关键属性信息。综上所述,一种基于关联规则算法及朴素贝叶斯法的葡萄酒分类方法,包括如下步骤:采集待分类红酒的属性信息,其中,所述属性信息包括关键属性信息;使用关联规则算法基于所述属性信息生成强关联规则;使用朴素贝叶斯法基于所述强关联规则提取所述关键属性信息;使用朴素贝叶斯计算所述关键属性信息的权重并对所述关键属性信息加权;使用朴素贝叶斯法基于加权后的关键属性信息对所述待分类红酒进行分类。本专利技术降低了属性之间的依赖关系,减少了相关性较强的非分类属性以及影响方向相似的条件属性,只使用对分类产生效果的关键属性进行分类,提高了分类的准确性,并且通过得出的关联规则求出关键属性所占权重对该属性进行加权,解决了各个属性所占的权重不同的问题。附图说明图1为本专利技术公开的一种基于关联规则算法及朴素贝叶斯法的葡萄酒分类方法的流程图。具体实施方式下面结合附图对本专利技术作进一步的详细说明。如图1所示,本专利技术公开了一种基于关联规则算法及朴素贝叶斯法的葡萄酒分类方法,包括如下步骤:S101、采集待分类红酒的属性信息,其中,属性信息包括关键属性信息;对红酒进行分类时,需要先采集红酒的属性信息,属性信息包含酒精浓度、水、密度、酸碱度、硫酸钾、果酸、甘油、单宁和色素、氯化钠、糖分、柠檬酸、挥发性酸等。在这些属性信息中,包括了对分类起作用的关键属性信息以及对分类不起作用或起到的作用极小的伴生属性信息。S102、使用关联规则算法基于属性信息生成强关联规则;可根据实际情况自行设定支持度阈值和高置信度阈值,利用关联规则中的Apriori算法,求出每项属性信息的支持度,并与设定的支持度阈值进行比较找出频繁项集,其中求出的属性信息的支持度大于设定的支持度阈值的便是频繁1项集,结合Apriori算法的性质,使频繁项集的所有非空子集也必须是频繁项集,进行连接剪枝,找出所有的频繁项集。通过得到的频繁项集产生强关联规则,在找出频繁项集的过程中未超过支持度阈值的项集已被剔除,如果剩下这些规则又满足了都大于高置信度阈值,这些规则就是强关联规则。得到的强关联规则分类结果中包括带分类项的关联规则,即权利要求中的第一关联规则,带分类项的关联规则是若干属性→类别这样的结构组成,如水、糖分→低级红酒,还包括不带分类项的关联规则,即权利要求中的第二关联规则,不带分类项的关联规则由某属性→某属性这种结构组成,如酸碱度→柠檬酸。S103、使用朴素贝叶斯法基于强关联规则提取关键属性信息;属性信息中包括了对分类起作用的关键属性信息以及对分类不起作用或起到的作用极小的伴生属性信息,采用朴素贝叶斯法可以提取出关键属性信息。S104、使用朴素贝叶斯计算关键属性信息的权重并对关键属性信息加权;基于上述处理之后,对剩下的关键属性进行分析。由于分类项中的每个属性所占权重不同,所以关键属性会对分类的结果产生更大的影响。传统朴素贝叶斯算法包括三个阶段:准备阶段、分类器训练阶段及应用阶段。在分类器训练阶段,需要计算训练集中出现的每个关键属性对每个类别的条件概率。通过得到关本文档来自技高网
...
一种基于关联规则算法及朴素贝叶斯法的葡萄酒分类方法

【技术保护点】
一种基于关联规则算法及朴素贝叶斯法的葡萄酒分类方法,其特征在于,包括如下步骤:采集待分类红酒的属性信息,其中,所述属性信息包括关键属性信息;使用关联规则算法基于所述属性信息生成强关联规则;使用朴素贝叶斯法基于所述强关联规则提取所述关键属性信息;使用朴素贝叶斯计算所述关键属性信息的权重并对所述关键属性信息加权;使用朴素贝叶斯法基于加权后的关键属性信息对所述待分类红酒进行分类。

【技术特征摘要】
1.一种基于关联规则算法及朴素贝叶斯法的葡萄酒分类方法,其特征在于,包括如下步骤:采集待分类红酒的属性信息,其中,所述属性信息包括关键属性信息;使用关联规则算法基于所述属性信息生成强关联规则;使用朴素贝叶斯法基于所述强关联规则提取所述关键属性信息;使用朴素贝叶斯计算所述关键属性信息的权重并对所述关键属性信息加权;使用朴素贝叶斯法基于加权后的关键属性信息对所述待分类红酒进行分类。2.如权利要求1所述的基于关联规则算法及朴素贝叶斯法的葡萄酒分类方法,其特征在于,所述采集待分类红酒的属性信息包括:采集所述待分类红酒的初始信息;对所述初始信息进行预处理生成所述属性信息。3.如权利要求2所述的基于关联规则算法及朴素贝叶斯法的葡萄酒分类方法,其特征在于,所述对所述初始信息进行预处...

【专利技术属性】
技术研发人员:何波章宏远闫河
申请(专利权)人:重庆理工大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1