数据分析系统以及方法技术方案

技术编号:13145674 阅读:127 留言:0更新日期:2016-04-10 08:59
本发明专利技术提供一种数据分析系统以及方法,包括模型建立单元、特征撷取单元、处理单元以及输出单元。模型建立单元利用训练数据通过机器学习演算法建立预测模型。特征撷取单元撷取输入数据的多个特征数据,并将特征数据分类为多个群组。处理单元利用群组之一所对应的特征数据,并通过机器学习演算法取得输入数据对应于预测模型的机率值,并判断机率值。当机率值小于既定值时,则选取未被选取群组之一所对应的特征数据通过机器学习演算法,更新输入数据对应于预测模型的机率值,当机率值大于或等于既定值,则根据机率值分类输入数据。输出单元输出分类结果。本发明专利技术根据输入数据的特征值的权重将部分特征值输入机器学习演算法中,提高了数据处理效率。

【技术实现步骤摘要】

本专利技术是有关于一种数据分析系统及方法,特别是有关于一种根据输入数据的不同特征值,更新输入数据与预测模型间的机率值。
技术介绍
随着科技的进步,我们已有能力将大量数据转换为有意义的信息,并利用特定的演算法进行行为的预测。而通过机器学习演算法的运作,我们可以根据数据的数据建立一样版模型,再借由判断输入数据与样版模型的关联性来分类输入数据类型。由于预测准确度与演算法的复杂度有关,因此为了维持预测的准确度,演算法的计算通常需要大量数据以及时间。因此,如何在维持预测准确度的条件下,提升演算法运作效率为目前使用者所需解决之问题。
技术实现思路
本专利技术的目的在于提供一种数据分析系统,以在维持预测准确度的条件下,提升演算法运作效率。本专利技术一实施例提供的数据分析系统,包括一模型建立单元、一特征擷取单元、一处理单元以及一输出单元。模型建立单元利用一训练数据通过一机器学习演算法建立一预测模型。特征擷取单元擷取输入数据的多个特征数据,并将特征数据分类为多个群组。处理单元利用群组之一所对应的特征数据通过机器学习演算法取得输入数据对应于预测模型的机率值,并判断机率值。当机率值小于一既定值时,则选取未选取群组之一所对应的特征数据通过机器学习演算法更新输入数据对应于预测模型的机率值,当机率值大于或等于既定值,则根据机率值分类输入数据。输出单元输出一分类结果。本专利技术另一实施例提供一种数据分析方法,步骤包括:利用一训练数据通过一机器学习演算法建立一预测模型;接收一笔输入数据,其中输入数据具有多个特征数据;擷取输入数据的特征数据,并将特征数据分类为多个群组;选取群组之一所对应的特征数据通过机器学习演算法取得输入数据对应于预测模型的一机率值;判断机率值。当机率值小于一既定值时,则选取未选取群组之一所对应的特征数据通过机器学习演算法更新输入数据对应于预测模型的机率值,以及当机率值大于或等于既定值时,则根据机率值分类输入数据。本专利技术另一实施例提供一种数据分析系统,包括一模型建立单元、一特征擷取单元、一处理单元以及一输出单元。模型建立单元利用训练数据通过机器学习演算法建立一预测模型。特征擷取单元擷取输入数据的多个特征数据,并将特征数据分类为第一群组以及第二群组。处理单元利用第一群组所对应的特征数据的部分以及第二群组所对应的特征数据的部分通过机器学习演算法分别取得对应于预测模型的第一机率值以及第二机率值,并根据第一机率值以及第二机率值取第一群组以及第二群组之一所对应的所有特征数据取得判断结果。输出单元输出判断结果。本专利技术另一实施例提供一种数据分析方法,步骤包括:利用训练数据通过机器学习演算法建立一预测模型;接收一笔输入数据,其中输入数据具有多个特征数据;将特征数据分类为第一群组以及第二群组;利用第一群组所对应的特征数据的部分以及第二群组所对应的特征数据的部分通过机器学习演算法分别取得对应于预测模型的第一机率值以及第二机率值;根据第一机率值以及第二机率值取第一群组以及第二群组之一所对应所有特征数据取得一判断结果;以及输出判断结果。根据本专利技术一实施例所提出的数据分析系统以及数据分析方法,使用者可根据输入数据的特征值的权重将部分特征值输入机器学习演算法中,以取得输入数据对应于预测模型的机率值,并根据机率值决定是否要选取更多的特征值以提高预测的准确率,如此可减少机器学习演算法的运算次数,以借此提高数据分析的处理效率。【附图说明】图1显示根据本专利技术一实施例所述的数据分析系统的方块图;图2显示根据本专利技术一实施例所述的数据分析方法的流程图;图3显示根据本专利技术另一实施例所述的数据分析系统的方块图;图4显示根据本专利技术另一实施例所述的数据分析方法的流程图;图5显示根据本专利技术另一实施例所述的数据分析系统的方块图;图6显示根据本专利技术另一实施例所述的数据分析方法的流程图。符号说明:100、300、500?数据分析系统;110、310、510?模型建立单元;120、320、520?特征擷取单元;130,330,530 ?处理单元;140,340,540 ?输出单元;S201 ?S208、S401 ?S412、S601 ?S612 ?步骤流程。【具体实施方式】有关本专利技术的系统及方法与其他范围将于接下来所提供的详述中清楚易见。必须了解的是下列详述及具体的实施例,当提出有关数据分析系统以及数据分析方法的示范实施例时,仅作为描述的目的,本专利技术范围不因此受限制。图1显示根据本专利技术一实施例所述数据分析系统的示意图。如图1所示,数据分析系统100包括一模型建立单元110、一特征擷取单元120、一处理单元130以及一输出单元140。模型建立单元110利用一训练数据通过一机器学习演算法建立一预测模型。训练数据根据机器学习演算法的类型擷取相关的特征值以建立预测模型。特征擷取单元120擷取输入数据的多个特征数据,并将特征数据分类为多个群组。其中,特征擷取单元120还根据输入数据对应于机器学习演算法的一既定权重对特征数据进行分类。处理单元130利用群组之一所对应的特征数据通过机器学习演算法取得并判断输入数据对应于预测模型的机率值。当机率值大于或等于既定值时,则判断输入数据与训练数据为相同的类别。反之,当机率值小于既定值时,则选取未选取群组之一所对应的特征数据通过机器学习演算法更新输入数据对应于预测模型的机率值。然而,当已无未选取的群组,且机率值小于既定值时,则判断输入数据以及训练数据为不同的类别。输出单元140根据判断结果输出一分类结果。请配合图1参阅图2。图2显示根据本专利技术另一实施例所述数据分析方法的流程图。于此实施例中,数据分析方法适用于一车牌辨识系统。首先,于步骤S201,模型建立单元110分别将单个或多个数字0?9的训练图像输入机器学习演算法以建立一第一预测模型。第一预测模型用以判断输入图像与训练图像的关联性。于步骤S202,输入一输入图像至特征擷取单元120。接着,于步骤S203,特征擷取单元120根据机器学习演算法的类型擷取输入图像的多个特征值,并根据特征值所对应的权重将其分类为多个群组。举例来说,一输入图像的大小为100像素*100像素,其中可将每一个像素视为一个特征值。换言之,此输入图像具有10000个特征值。特征擷取单元120根据权重将10000个特征值分类为40个群组。由于输入图像为图像数据,故特征数据通常与色彩信息以及边缘信息有关。此外,特征擷取单元120还根据机器学习演算法的类型赋与各个特征数据可调整的权重,而特征数据的权重可根据系统的需求进行调整。于步骤S204,处理单元130选取具有最大权重的特征值作为输入机器学习演算法的特征值,并取得对应于第一预测模型的机率值。于步骤S205,处理单元130于取得机率值后,还判断机率值是否大于一既定值。若机率值大于或等于既定值,则进入步骤S206,处理单元130判断输入图像与预测模组的图像相同。反之,当机率值小于既定值时,则进入步骤S207,处理单元130判断是否有未选取的群组。若仍有未选取的群组,则回到步骤S204,处理单元130重新选取具有最大权重的群组加上具有次大权重的群组作为输入机器学习演算法的特征值,以更新输入图像对应于第一预测模型的机率值。换言之,处理单元130第一次仅选取单一个群组的特征值作为输入机本文档来自技高网...

【技术保护点】
一种数据分析系统,其特征在于,包括:一模型建立单元,利用一训练数据通过一机器学习演算法建立一预测模型;一特征撷取单元,撷取一输入数据的多个特征数据,并将所述特征数据分类为多个群组;一处理单元,利用所述群组之一所对应的所述特征数据通过所述机器学习演算法取得所述输入数据对应于所述预测模型的一机率值,并判断所述机率值,其中当所述机率值小于一既定值时,则选取未选取的所述群组之一所对应的所述特征数据通过所述机器学习演算法更新所述输入数据对应于所述预测模型的所述机率值,当所述机率值大于或等于所述既定值,则根据所述机率值分类所述输入数据;以及一输出单元,输出一分类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:张锡嘉廖彦钦
申请(专利权)人:华邦电子股份有限公司
类型:发明
国别省市:中国台湾;71

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1