一种云计算环境下机器学习自动选择方法技术

技术编号:6997349 阅读:747 留言:0更新日期:2012-04-11 18:40
本发明专利技术是一种基于云计算环境的机器学习自主选择方法。通过使用云计算平台,用户无需搭建机器学习的运行环境,也无需选择机器学习算法,更不用调整纷繁复杂的机器学习函数及其附带的参数,只需使用Web方式上传样本数据,就能自动智能的建立符合实际问题的机器学习数学模型。本发明专利技术使机器学习的使用摆脱了环境的束缚,发挥了云计算平台的优势,使得机器学习建模针对用户透明,最大程度的降低了机器学习的使用门槛。解决了在实际应用机器学习时,建模选择的难以预测性、参数调整的人工经验性、普通用户困难等缺点。

【技术实现步骤摘要】

本专利技术是一种基于云计算环境的机器学习自主选择方法。通过使用云计算平台,使得用户无需搭建机器学习的运行环境,也无需学习机器学习算法,更不用调整纷繁复杂的机器学习函数及其参数,只需在云计算平台下,使用Web方式上传训练数据和预测测试 数据,以及确定包括使用范围、期望域等很少的信息,就能得到所需要的多种机器学习模型 及具体描述,以便解决实际问题。
技术介绍
机器学习是继专家系统应用、人工智能应用后的又一重要应用,同时也是人工智 能的一种核心研究课题。其目的是使计算机能够模拟或者实验人类的学习行为,从而获得 知识或技能,同时可以不断根据新的信息改善性能。机器学习的能力是非常重要的特征, H. A. Simon认为,学习是系统所作的适应性变化,使得系统在下一次完成同样或类似的任务 时获得更好的完成效果。R. s.Michalski认为,学习是构造或修改对于所经历事物的表示。 从事专家系统研制的人们则认为学习是知识的获取。这些观点各有侧重,第一种观点强调 学习的外部行为效果,第二种则强调学习的内部过程,而第三种主要是从知识工程的实用 性角度出发的。 机器学习的研究方法是借鉴生理学、心理学、认知学等对人类本身自我学习机理 的了解,建立对人类学习过程的计算模型或认识模型,从而形成各种学习理论和学习方法, 建立面向任务的具有特定应用的学习系统。这些研究目标相互影响相互促进。自从19S0 年在卡内基-梅隆大学召开第一届机器学术研讨会以来,机器学习发展很快,已成为中心 课题之一。 而机器学习的历史发展过程分为四个阶段(1) 50年代中期到60年代中期的热烈 时期;(2)60年代中期至70年代中期的冷静时期;(3)70年代中期至80年代中期的复兴时 期;(4) 1986年开始则是机器学习的最新阶段。而目前这个时期,最显著的特点是机器学习 已经演变成了一门新兴的边缘学科,融合了各种各样学习方法,应用范围也越来越大,相关 学术活动十分活跃。 机器学习发展到现阶段,应用已经十分广泛,诞生了很多优秀的算法,基本上可以概括为基于符号的学习和基于非符号学习,也就是连接学习。而前者基于符号的学习, 一般包括机械式学习、指导式学习、示例式学习、类比式学习、基于解释的学习等等。 其中较为常见算法有决策树算法、遗传算法、贝叶斯统计算法、人工神经网络算法、支持向量机算法、关联规则算法等等。本文设计的方法中自带了这些常见算法的建模模块,并且使用EM算法来对参数进行最大似然估计。 但是使用机器学习技术处理具体任务,主要面临三个问题(l)在针对某一具体 任务时,建立机器学习模型费时费力,由于具体任务细节的差别性,难以直接借鉴其他已经 构建好的系统模型,需要根据个人经验来选择。(2)即使某次任务,正确选择了比较符合客 观事实本质的机器学习算法,其复杂的参数如何设置也是个必须解决的问题,需要根据经验或者用户机长时间的运算得到,单用户的计算能力难以快速的解决问题(3)用户需要学习和使用具体的机器学习软件,机器学习算法纷繁复杂,自主学习需要花费大量时间,同时用户自主学习的某一些算法也不一定能合适用户需要解决的每一个遇到任务。 而新兴出现的云计算技术,却能很好的解决以上问题,使机器学习更加方便的应用到实际中,更快更好的创造价值。 云计算是在分布式系统、网格计算等发展的基础上提出的一种新型计算模型,是一种新兴的共享基础架构的方法,它面对的是超大规模的分布式环境,核心是提供数据存储和网络服务。这是一种指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的服务。这种服务可以是IT和软件、互联网相关的,也可以是任意其他的服务。云计算提供了最可靠、最安全的数据存储中心,用户不用再担心数据丢失、病毒入侵等麻烦,同时云计算对用户端的设备要求达到了最低。云计算中提到的"云"是一些可以自我维护和管理的虚拟计算资源,通常为一些大型服务器集群,包括计算服务器、存储服务器、宽带资源等等。云计算通过提供各种云,将所有的计算资源集中起来,并由软件实现自动管理,无需人为参与。这使得应用提供者无需为繁琐的细节而烦恼,能够更加专注于自己的业务,有利于创新和降低成本。应用到机器学习上,云计算可以建立好机器学习模型及相关模块供用户选择,使得用户快速的享用机器学习技术的成果来解决问题。 现有云计算平台基本是基于理论计算及存储服务的,未发现有专门为机器学习的建立云计算方法,本专利技术结合机器学习技术及云计算技术的优点和特性,提供了一种可行的实现方法。
技术实现思路
技术问题本专利技术的目的是提供是。通过使用云计算平台,解决了机器学习建模不便的问题,提供了一种结合云计算技和机器学习技术处理现实问题提供了方便快捷的方法。从而使用户无需为繁琐的细节而烦恼,能够更加专注于自己的业务,有利于创新和降低成本。 技术方案本专利技术使机器学习的使用摆脱了环境的束缚,充分发挥了云计算平台高效的计算能力和透明性,最大程度的降低了机器学习的使用门槛,使得用户无需从众多机器学习方法中通过反复实验寻找合适的机器学习方法,解决了在实际应用机器学习时,建模选择的难以预测性、参数调整的人工经验性、普通用户学习困难等缺点。本专利技术目的是组建提供机器学习服务的云计算平台的方法。在云计算平台下,通过以下三方面进行系统构建一方面建立以云形式存在的大量计算机组成的各种机器学习云,包括决策树算法云、遗传算法云、贝叶斯统计算法云、人工神经网络算法云、支持向量机算法云、关联规则算法云,使得云计算平台默认自带了常见的机器学习算法;另一方面通过同样由计算机群组成的初始建模云、搜索空间概估云、方法发现云、EM算法支撑云、评估函数云、计算云、机器学习算法扩充云,从而体现出云的优势,由大量的计算资源计算出普通用户难以或需要长时间计算出的机器学习使用的合适的参数;最后一方面是云计算平台与用户进行交互的必须的模块,包括Web交互界面,机器学习输入输出模块及云管理模块,用以支撑云计算平台的运行。 步骤1)在云管理模块的统一调度下,首先通过Web交互界面,得到用户所需要解决问题的粗略描述,包括问题种类,即选择所属大类,从专家系统、认知模拟、规划和问题求 解、数据挖掘、网络信息服务、图象识别、故障诊断、自然语言理解、机器人和博弈、其它类别 中选择, 步骤2)启用初始建模云,通过步骤l)中的用户提供的大类,进入不同的子类界 面,填写相应更加详细的信息,包括进行样本上传、选择表示方法、确定结果分析方法、使用范围、期望域, 步骤3)启动方法发现云,根据用户提供的信息同历史典型事例进行比对,确定因 采取哪种或哪几种的机器学习算法;此云模块伴随着后续步骤运行,从而根据各阶段计算 结果时刻进行调整, 步骤4)然后将步骤2种用户输入的信息,输入机器学习输入输出模块,得统一化、 数据化后,依次进行缺失值处理、噪声数据处理、数据清理、数据集成、数据变换、数据归约 等操作,以便得到一般算法能够使用的中间结果, 步骤5)启动评估函数云,根据用户在步骤2)输入的信息建立评估函数,对机器学 习解的优劣判断做准备,从而对具体算法性能进行预测, 步骤6)同时调用EM算法支撑云,对解空间进行最大似然估计,计算最优解或较优 解的在解空间的大致位置,增加搜索效率, 步骤7)到达此步骤后,说明准备本文档来自技高网
...

【技术保护点】
一种云计算环境下机器学习自动选择方法,其特征在于该方法所包含的步骤为:步骤1)在云管理模块的统一调度下,首先通过Web交互界面,得到用户所需要解决问题的粗略描述,包括问题种类,即选择所属大类,从专家系统、认知模拟、规划和问题求解、数据挖掘、网络信息服务、图象识别、故障诊断、自然语言理解、机器人和博弈、其它类别中选择,步骤2)启用初始建模云,通过步骤1)中的用户提供的大类,进入不同的子类界面,填写相应更加详细的信息,包括进行样本上传、选择表示方法、确定结果分析方法、使用范围、期望域,步骤3)启动方法发现云,根据用户提供的信息同历史典型事例进行比对,确定因采取哪种或哪几种的机器学习算法;此云模块伴随着后续步骤运行,从而根据各阶段计算结果时刻进行调整,步骤4)然后将步骤2种用户输入的信息,输入机器学习输入输出模块,得统一化、数据化后,依次进行缺失值处理、噪声数据处理、数据清理、数据集成、数据变换、数据归约等操作,以便得到一般算法能够使用的中间结果,步骤5)启动评估函数云,根据用户在步骤2)输入的信息建立评估函数,对机器学习解的优劣判断做准备,从而对具体算法性能进行预测,步骤6)同时调用EM算法支撑云,对解空间进行最大似然估计,计算最优解或较优解的在解空间的大致位置,增加搜索效率,步骤7)到达此步骤后,说明准备工作已经完成,即将进行机器学习的训练过程,通过以上步骤的自动判断,分别调用一个或者几个具体的机器学习云模块进行学习,包括决策树算法云、遗传算法云、贝叶斯统计算法云、人工神经网络算法云、支持向量机算法云、关联规则算法云;如用户自定义了机器学习算法扩充云,则优先调用机器学习算法扩充云,步骤8)经过以上步骤计算,选择一个或若干个算法云,将其启动,同时通过Web交互界面向用户反馈信息,包括计算运行的步骤,得到的中间结果,当前最优解变化,步骤9)在EM算法支撑云的反复迭代过程中,不断返回到步骤6,步骤7进行计算,同时判断是否达到终止条件,如果达到终止条件则跳转步骤10,否则使用步骤5制定的性能预测算法进行判断解的优秀程度,此步骤需要大量计算资源,因而需要利用云计算的计算优势,尽可能得计算出优秀解,步骤10)在终止条件满足时,如计算时间到,无更优解或算法本身迭代结束,通过机器学习输入输出模块将计算结果转换为具有可读性的信息,再通过Web交互界面交还客户,并提供详细数据下载,同时保存机器学习结果,以便再次使用,避免重复计算。...

【技术特征摘要】

【专利技术属性】
技术研发人员:王汝传孔强任勋益付雄邓松易侃杨明慧蒋凌云邓勇
申请(专利权)人:南京邮电大学
类型:发明
国别省市:84

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1