一种基于机器学习的数据处理方法、系统、设备以及介质技术方案

技术编号:34341332 阅读:35 留言:0更新日期:2022-07-31 03:58
本发明专利技术公开了一种基于机器学习的数据处理方法、系统、设备以及介质,方法包括:于一数据库中提取待处理数据;将待处理数据通过一图形特征提取模型提取多个图像特征部;将所述图像特征相匹配的部分所述待处理数据作为输出数据予以输出,本发明专利技术可以对现有的项目扫描页面进行自动识别,并且在大量的数据中将同一组或者同一个部件的项目扫描页面进行归类处理,提高数据管理效率,而且在显示该项目扫描页面时,同步显示项目扫描页面中结构图形(页面图形)所匹配的其它结构,进而可以提高浏览效率。进而可以提高浏览效率。进而可以提高浏览效率。

【技术实现步骤摘要】
一种基于机器学习的数据处理方法、系统、设备以及介质


[0001]本专利技术涉及的是一种数据处理领域的技术,具体是一种基于机器学习的数据处理方法、系统、设备以及介质。

技术介绍

[0002]机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习采用两种技术:监督式学习和无监督学习。监督式学习根据已知的输入和输出训练模型,让模型能够预测未来输出;无监督学习从输入数据中找出隐藏模式或内在结构。
[0003]在产业发展的今天,大数据时代的到来,对数据的转换,数据的处理数据的存储等带来了更好的技术支持,产业升级和新产业诞生形成了一种推动力量,让大数据能够针对可发现事物的程序进行自动规划,实现人类用户以计算机信息之间的协调。另外现有的许多机器学习方法是建立在内存理论基础上的。大数据还无法装载进计算机内存的情况下,是无法进行诸多算法的处理的,因此应提出新的机器学习算法,以适应大数据处理的需要。大数据环境下的机器学习算法,依据一定的性能标准,对学习结果的重要程度可以予以忽视。采用分布式和并行计算的方式进行分治策略的实施,可以规避掉噪音数据和冗余带来的干扰,降低存储耗费,同时提高学习算法的运行效率。
[0004]随着大数据时代各行业对数据分析需求的持续增加,通过机器学习高效地获取知识,已逐渐成为当今机器学习技术发展的主要推动力。大数据时代的机器学习更强调“学习本身是手段"机器学习成为一种支持和服务技术。如何基于机器学习对复杂多样的数据进行深层次的分析,更高效地利用信息成为当前大数据环境下机器学习研究的主要方向。所以,机器学习越来越朝着智能数据分析的方向发展,并已成为智能数据分析技术的一个重要源泉。另外,在大数据时代,随着数据产生速度的持续加快,数据的体量有了前所未有的增长,而需要分析的新的数据种类也在不断涌现,如文本的理解、文本情感的分析、图像的检索和理解、图形和网络数据的分析等。使得大数据机器学习和数据挖掘等智能计算技术在大数据智能化分析处理应用中具有极其重要的作用。
[0005]在现有的数据处理领域中,无法对已经完成的图片或者工程图纸的扫描页面进行精确的多维度数据处理,而在项目中此类工程图纸的扫描件为所需要处理的主要数据,对此类数据无法实现分类输出处理。

技术实现思路

[0006]本专利技术针对现有技术存在的上述不足,提出一种基于机器学习的数据处理方法、系统、设备以及介质,可以对现有的项目扫描页面进行自动识别,并且在大量的数据中将同一组或者同一个部件的项目扫描页面进行归类处理,提高数据管理效率,而且在显示该项目扫描页面时,同步显示项目扫描页面中结构图形(页面图形)所匹配的其它结构,进而可以提高浏览效率。
[0007]本专利技术是通过以下技术方案实现的:
[0008]根据本专利技术的一个方面,提供一种基于机器学习的数据处理方法,包括:
[0009]于一数据库中提取待处理数据;
[0010]将所述待处理数据通过一图形特征提取模型提取多个图像特征部;
[0011]将所述图像特征相匹配的部分所述待处理数据作为输出数据予以输出。
[0012]优选的,所述待处理数据由多个项目扫描页面组成,每一所述项目扫描页面包含有图形和字符。
[0013]优选的,将所述待处理数据通过一图形特征提取模型提取多个图像特征包括以下步骤:
[0014]对所述待处理数据中的每一所述项目扫描页面进行图形提取以获得每一所述项目扫描页面的至少一个页面图形;
[0015]将属于不同的所述项目扫描页面的所述页面图形分别进行特征匹配组合形成多个组合图形;
[0016]对每一所述组合图形通过所述图形特征提取模型进行特征提取以获得多个所述图像特征部。
[0017]优选的,所述将所述图像特征相匹配的部分所述待处理数据作为输出数据予以输出包括一下步骤:
[0018]将所述图像特征部与预设的图像参照部拟合匹配,以获得每一所述组合图形中的能够匹配的所述图像特征部的数量值;
[0019]将所述图像特征部的所述数量值进行归一化获得一匹配系数;
[0020]若所述匹配系数大于一预设的阈值,则将所述组合图形所对应的所述项目扫描页面并入一项目页面集合,并将项目页面集合作为所述输出数据以输出。
[0021]优选的,所述将所述图像特征相匹配的部分所述待处理数据作为输出数据予以输出,还包括:
[0022]将所述项目页面集合中的一所述项目扫描页面于一显示页面显示;
[0023]响应于所述显示页面的所述项目扫描页面的所述页面图形被选中,将与被选中的所述页面图形相对应的所述组合图形中的另一所述页面图像与所述显示页面中显示。
[0024]优选的,所述将所述图像特征相匹配的部分所述待处理数据作为输出数据予以输出,还包括:
[0025]将与被选中的所述页面图形相对应的所述组合图形于所述显示页面显示。
[0026]根据本专利技术的一个方面,提供一种基于机器学习的数据处理系统,包括:
[0027]提取模块,于一数据库中提取待处理数据;
[0028]特征模块,将所述待处理数据通过一图形特征提取模型提取多个图像特征部;
[0029]输出模块,将所述图像特征相匹配的部分所述待处理数据作为输出数据予以输出
[0030]根据本专利技术的一个方面,提供一种基于机器学习的数据处理设备,包括:
[0031]处理器;
[0032]存储器,其中存储有所述处理器的可执行指令;
[0033]其中,所述处理器配置为经由执行所述可执行指令来执行上述基于机器学习的数据处理方法的步骤。
[0034]根据本专利技术的一种计算机可读存储介质,用于存储程序,所述程序被执行时实现上述基于机器学习的数据处理方法的步骤。
[0035]上述技术方案的有益效果是:
[0036]本专利技术中的基于机器学习的数据处理方法、系统、设备以及介质,可以对现有的项目扫描页面进行自动识别,并且在大量的数据中将同一组或者同一个部件的项目扫描页面进行归类处理,提高数据管理效率,而且在显示该项目扫描页面时,同步显示项目扫描页面中结构图形(页面图形)所匹配的其它结构,进而可以提高浏览效率。
[0037]本专利技术的其它特征和优点以及本专利技术的各种实施例的结构和操作,将在以下参照附图进行详细的描述。应当注意,本专利技术不限于本文描述的具体实施例。在本文给出的这些实施例仅仅是为了说明的目的。
附图说明
[0038]通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显。
[0039]图1是本专利技术一种基于机器学习的数据处理方法的具体实施场景;
[0040]图2是本专利技术的一种基于机器学习的数据处理方法流程示意图;
[0041]图3是本专利技术的一种图像特征部提取流程示意图;
[0042]图4是本专利技术中的一种输出数据方法;
[0043]图5是本专利技术的一种页本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的数据处理方法,其特征在于,包括:于一数据库中提取待处理数据;将所述待处理数据通过一图形特征提取模型提取多个图像特征部;将所述图像特征相匹配的部分所述待处理数据作为输出数据予以输出。2.根据权利要求1所述的基于机器学习的数据处理方法,其特征在于,所述待处理数据由多个项目扫描页面组成,每一所述项目扫描页面包含有图形和字符。3.根据权利要求2所述的基于机器学习的数据处理方法,其特征在于,将所述待处理数据通过一图形特征提取模型提取多个图像特征包括以下步骤:对所述待处理数据中的每一所述项目扫描页面进行图形提取以获得每一所述项目扫描页面的至少一个页面图形;将属于不同的所述项目扫描页面的所述页面图形分别进行特征匹配组合形成多个组合图形;对每一所述组合图形通过所述图形特征提取模型进行特征提取以获得多个所述图像特征部。4.根据权利要求3所述的基于机器学习的数据处理方法,其特征在于,所述将所述图像特征相匹配的部分所述待处理数据作为输出数据予以输出包括一下步骤:将所述图像特征部与预设的图像参照部拟合匹配,以获得每一所述组合图形中的能够匹配的所述图像特征部的数量值;将所述图像特征部的所述数量值进行归一化获得一匹配系数;若所述匹配系数大于一预设的阈值,则将所述组合图形所对应的所述项目扫描页面并入一项目页面集合,并将项目页面集合作为所述输出数据以输出。5.根据权利要求4所述...

【专利技术属性】
技术研发人员:薛敏俞佳雯于浩郑楠喻飞
申请(专利权)人:霍普智库南京信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1