本发明专利技术公开了一种基于K‑means和Apriori的算法海事大数据关联分析的方法,首先根据不同业务采用k‑means聚类算法进行聚类,将数据集划分出了多个互不相交的“簇”,再在各“簇”内通过Apriori算法实现各类事件关联规则挖掘,其结果表明使用该方法经过聚类后的同一簇内事件关联程度明显优于直接在数据集中使用Apriori算法进行挖掘,为海事大数据关联分析提供重要依据,构建海事知识图谱。
【技术实现步骤摘要】
一种基于K-means和Apriori的算法海事大数据关联分析的方法
本专利技术涉及数据处理
,具体为一种基于K-means和Apriori的算法海事大数据关联分析的方法。
技术介绍
当前海事的决策分析更多的是基于大量数据报表形成统计型分析,需要人工的介入分析统计数据背后的意义,进而发现事情和问题的原因。这种数据分析更多的还是基于“因果”的思维,但在未来智慧海事发展中会面临以下瓶颈:1.无法分析出问题的原因,进而无法解决问题;2.造成问题的原因很多,导致无法有效的解决问题;3.数据统计不客观、不全面、虚假数据等因素,造成“数据说谎”的情况;4.数据因果分析效率较低,难以实现实时的决策。根据国家海事部门编制的《海事信息系统顶层设计》及智慧海事战略规划要求,海事信息化发展取得了可观的成果,海事云数据中心建设取得突破性进展,基本实现了全国海事系统基础数据的汇集与筛选,为海事大数据应用夯实了基础。未来,基于数据的“事实”将会成为决策的重要依据。
技术实现思路
本专利技术的目的在于提供一种基于K-means和Apriori的算法海事大数据关联分析的方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于K-means和Apriori的算法海事大数据关联分析的方法,包括以下步骤:A、建立海事数据资源库,提取并形成海事基础信息属性:海事业务大多围绕人、船、环境等要素,根据海事业务的特点,建立标准的海事数据资源库,并从业务属性方面进行分析,以便全面挖掘数据特征;B、进行属性归类,实现利用k-means聚类算法实现聚类:根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇;根据k值的设定,将数据按属性距离分为若干不相交的簇;同一个“簇”内的数据对象具有一定的相似程度,而不同“簇”间的数据对象相似程度使之降低;C、利用Apriori算法实现海事数据关联分析;D、建立海事知识图谱。优选的,所述步骤C中分析方法具体如下:a、根据情况,设定合适的最小支持度minsupport和最小置信度minconfidence;b、首先产生候选的项集合,即候选项集,若选取的候选项集的当前支持度大于或等于设定的最小支持度,则该候选项集为频繁项集;c、在Apriori算法的过程中,首先从数据库读入所有的事务,每个项都被看作候选1项集,得出各项的支持度,再使用频繁1项集集合来产生候选2项集集合;d、再扫描数据库,得出候选2项集集合,再找出频繁2项集,并利用这些频繁2项集集合来产生候选3项集;e、重复扫描数据库,与最小支持度比较,产生更高层次的频繁项集,再从该集合里产生下一级候选项集,直到不再产生新的候选项集为止,此算法中要不断重复两个步骤:连接和剪枝。优选的,所述步骤D中知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示海事业务的核心结构、发展历史、前沿领域以及整体知识架构以达到多业务融合;通过海事知识图谱的构建,把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,实现信息的快速检索,为智慧管理提供切实的、有价值的参考。与现有技术相比,本专利技术的有益效果是:本专利技术能够提高数据挖掘分析效:海事数据分析从“因果思维”向“关联思维”转变,从关注精确度转变为关注效率。现有数据分析是根据问题一定要找到一个原因,推出一个结果。而关联性分析不需要证明数据、事务之间的因果规律,更多的是关注某一数据出现某种迹象的时候,按数据统计的高概率显示它会有相应的结果,未来根据数据表现迹象确定相应的决策;能够提高海事监管服务水平:通过关联分析技术的应用,能够把数学算法运用到海量的数据上来预测事情发生的可能性。通过海事内部数据的充分应用以及外单位海量数据的交互收集,为未来海事安全事件、突发事件等预测夯实基础,进而提高海事的监管服务能力;决策分析更客观:通过关联分析,避免数据统计中样本不全、虚假数据等影响因素,最大程度保证关联分析的客观性,使得分析和决策更客观、精准。附图说明图1为本专利技术分析示意图;图2为本专利技术架构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1-2,本专利技术提供一种技术方案:一种基于K-means和Apriori的算法海事大数据关联分析的方法,包括以下步骤:A、建立海事数据资源库,提取并形成海事基础信息属性:海事业务大多围绕人、船、环境等要素,根据海事业务的特点,建立标准的海事数据资源库,并从业务属性方面进行分析,以便全面挖掘数据特征;B、进行属性归类,实现利用k-means聚类算法实现聚类:根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇;根据k值的设定,将数据按属性距离分为若干不相交的簇;同一个“簇”内的数据对象具有一定的相似程度,而不同“簇”间的数据对象相似程度使之降低;C、利用Apriori算法实现海事数据关联分析;D、建立海事知识图谱。本专利技术中,步骤C中分析方法具体如下:a、根据情况,设定合适的最小支持度minsupport和最小置信度minconfidence;b、首先产生候选的项集合,即候选项集,若选取的候选项集的当前支持度大于或等于设定的最小支持度,则该候选项集为频繁项集;c、在Apriori算法的过程中,首先从数据库读入所有的事务,每个项都被看作候选1项集,得出各项的支持度,再使用频繁1项集集合来产生候选2项集集合;d、再扫描数据库,得出候选2项集集合,再找出频繁2项集,并利用这些频繁2项集集合来产生候选3项集;e、重复扫描数据库,与最小支持度比较,产生更高层次的频繁项集,再从该集合里产生下一级候选项集,直到不再产生新的候选项集为止,此算法中要不断重复两个步骤:连接和剪枝。此外,本专利技术中,步骤D中知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示海事业务的核心结构、发展历史、前沿领域以及整体知识架构以达到多业务融合;通过海事知识图谱的构建,把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,实现信息的快速检索,为智慧管理提供切实的、有价值的参考。综上所述,本专利技术能够提高数据挖掘分析效:海事数据分析从“因果思维”向“关联思维”转变,从关注本文档来自技高网...
【技术保护点】
1.一种基于K-means和Apriori的算法海事大数据关联分析的方法,其特征在于:包括以下步骤:/nA、建立海事数据资源库,提取并形成海事基础信息属性:海事业务大多围绕人、船、环境等要素,根据海事业务的特点,建立标准的海事数据资源库,并从业务属性方面进行分析,以便全面挖掘数据特征;/nB、进行属性归类,实现利用k-means聚类算法实现聚类:根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇;根据k值的设定,将数据按属性距离分为若干不相交的簇;同一个“簇”内的数据对象具有一定的相似程度,而不同“簇”间的数据对象相似程度使之降低;/nC、利用Apriori算法实现海事数据关联分析;/nD、建立海事知识图谱。/n
【技术特征摘要】
20191204 CN 20191122670351.一种基于K-means和Apriori的算法海事大数据关联分析的方法,其特征在于:包括以下步骤:
A、建立海事数据资源库,提取并形成海事基础信息属性:海事业务大多围绕人、船、环境等要素,根据海事业务的特点,建立标准的海事数据资源库,并从业务属性方面进行分析,以便全面挖掘数据特征;
B、进行属性归类,实现利用k-means聚类算法实现聚类:根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇;根据k值的设定,将数据按属性距离分为若干不相交的簇;同一个“簇”内的数据对象具有一定的相似程度,而不同“簇”间的数据对象相似程度使之降低;
C、利用Apriori算法实现海事数据关联分析;
D、建立海事知识图谱。
2.根据权利要求1所述的一种基于K-means和Apriori的算法海事大数据关联分析的方法,其特征在于:所述步骤C中分析方法具体如下:
a、根据情况,设定合适的最小支持度minsupport和最小置信度minconfidence;
b、首先产生候选的...
【专利技术属性】
技术研发人员:李志杰,汤小剑,杨燕,
申请(专利权)人:江苏蓝河智能科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。