一种针对非结构化数据的Web服务发布与可视化的联合系统技术方案

技术编号:21891865 阅读:22 留言:0更新日期:2019-08-17 14:29
本发明专利技术涉及非结构性数据处理技术领域,尤其是一种针对非结构化数据的Web服务发布与可视化的联合系统,包括非结构化数据的预发布库模块以及非结构化数据的正式库模块,同时该系统还包括Web数据服务与可视化站点模块、数据管理与入库模块以及数据发布模块,数据管理与入库模块包括数据源配置单元、数据清洗单元、数据转换单元以及数据入库单元。本发明专利技术针对非结构化数据的采集、清洗、转换到数据可视化这一系列流程,相比于单独的数据处理需要大量工作进行数据获取、清洗转换及一系列流程化的操作和单独的数据可视化技术,本发明专利技术将多领域知识总结汇集成产品,打通了数据的前期处理到数据可视化的无缝衔接,使数据的动态展现变得简单、高效。

A Joint Web Service Publishing and Visualization System for Unstructured Data

【技术实现步骤摘要】
一种针对非结构化数据的Web服务发布与可视化的联合系统
本专利技术涉及非结构性数据处理
,尤其涉及一种针对非结构化数据的Web服务发布与可视化的联合系统。
技术介绍
非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、XML,HTML、各类报表、图像和音频/视频信息等等。随着大数据的发展,数据内容的多样性带动了非结构化数据存储技术的发展与需求。
技术实现思路
本专利技术的目的是为了解决现有技术中存在的缺点,而提出的一种针对非结构化数据的Web服务发布与可视化的联合系统。为了实现上述目的,本专利技术采用了如下技术方案:设计一种针对非结构化数据的Web服务发布与可视化的联合系统,包括非结构化数据的预发布库模块以及非结构化数据的正式库模块,同时该系统还包括Web数据服务与可视化站点模块、数据管理与入库模块以及数据发布模块,该系统通过数据管理与入库模块对数据进行集中整理,将整理后的数据传入非结构化数据的预发布库模块进行预发布处理,并通过数据发布模块对数据的发布,将发布的数据传入非结构化数据的正式库模块,从而能够让使用者通过Web数据服务与可视化站点模块对数据进行下载以及浏览使用,数据管理与入库模块包括数据源配置单元、数据清洗单元、数据转换单元以及数据入库单元,数据源配置单元通过对数据源的配置,可以允许哪些数据流入到本系统中来,保证对数据的可控制性。优选的,所述数据清洗单元则是针对输入系统的数据进行清洗工作,除了日常的数据一致性检查、缺失值处理、无效值处理、重复数据判断等一系列数据检查工作外,还可以通过配置或者嵌入自定义代码对数据清洗进行定制化的清洗工作,极大的提高了数据清洗的灵活性,保证数据清洗的质量。优选的,所述数据转换单元的主要功能就是按照预先制定好的规则把数据批量自动生成数据产品,在这个过程中,还可以通过一些拖拽动作来匹配字段级别层面的元素,对于字段值也可以进行字符串操作或者计算操作,该单元提供友好的界面,用户可以通过拖拽方式来操作表级别、字段级别的元素,在数据转换过程中,配合字符串操作以及计算操作,快速的把数据的展现从一种形式转换成为另一种形式,当数据量特别大的时候(Gb级别),会极大的提高工作效率。优选的,所述数据入库单元主要涵盖了数据质量管理以及数据入库管理两大功能,通过一些自然语言处理技术和机器学习的监督学习算法完成对数据质量的把控与管理,只有数据经过数据质量监测环节后,方可进入到后续的数据入库流程。优选的,所述数据发布模块包括数据目录服务单元、数据查询服务单元以及文件下载服务及表格数据所持有的可视化对象服务接口单元,系统自研了数据搜索引擎算法,对元数据中的数据标题、字段、时间、发布机构、涉及到的地理位置、数据描述、关键字等字段进行了中文分词处理并为其建立索引,大大增加了搜索词的命中率和准确率;基于表格型数据,我们生产了与之对应的、适合Web前后端读取和处理的可视化数据成果,并将其发布成服务接口;用户不但可以获得普通表格数据下载,也拥有从可视化角度了解数据基本情况与形态的支持,该模块的核心是将预发布库中的数据转换为Web服务接口,供Web站点及其他系统调用。优选的,所述Web数据服务与可视化站点模块包括数据查找单元、可视化设计单元以及个人数据管理单元,通过数据查找单元能够对于表格型的数据文件,在Web站点上不但可以通过搜索获得数据的基本情况,还可以通过交互式图表预览数据的基本情况,因为整个平台还具备数据可视化的编辑功能,因此用户在浏览了图表的基本情况后,还可以一键切换到图表的编辑配置界面,制作更加个性化的图表,为制作数据报告增添可视化元素,此功能是整个平台的一个重要特色点,也是只有基于本平台创新式整体架构才能支持的功能点,能帮助用户从数据查找到数据编辑,到报告输出的一站式完成。优选的,所述可视化设计单元对数据、信息或知识的一种混合可视化表现形式,通常会采用图表、文字、各类图标、图片等元素联合表达,完全支持此类信息图的制作,并采用人性化的交互式操作、自由拖拽的方式完成信息图的制作,灵活可控,也可以据此制作数据报告、数据海报、信息长图等各种输出需求。优选的,所述个人数据管理单元针对普通用户处理可以从本系统中查询获取数据,也可以自己上传数据,制作图表,本系统优化了数据逻辑的判别算法,结合系统支持的50种数据图表模板,能依据用户上传的数据结构,智能推荐最合适的图表供用户选择。本专利技术提出的一种针对非结构化数据的Web服务发布与可视化的联合系统,有益效果在于:该针对非结构化数据的Web服务发布与可视化的联合系统从针对非结构化数据的采集、清洗、转换到数据可视化这一系列流程,形成了一个流程化的整套技术方案,相比于单独的数据处理需要大量工作进行数据获取、清洗转换及一系列流程化的操作和单独的数据可视化技术需要跨领域的知识进行实现,本专利技术将多领域知识总结汇集成产品,打通了数据的前期处理到数据可视化的无缝衔接,使数据的动态展现变得简单、高效,同时本专利技术的关键点在于,系统对非结构化数据的清洗、校验、管理及可视化配置的一体化流程;针对非结构化统计数据的可视化智能算法;适用于Web发布和检索的非结构化数据集;一站式完成数据检索与可视化的模式创新。附图说明图1为本专利技术提出的一种针对非结构化数据的Web服务发布与可视化的联合系统的系统框图。图2为本专利技术提出的一种针对非结构化数据的Web服务发布与可视化的联合系统的数据管理与入库模块的系统框图。图3为本专利技术提出的一种针对非结构化数据的Web服务发布与可视化的联合系统的数据发布模块的系统框图。图4为本专利技术提出的一种针对非结构化数据的Web服务发布与可视化的联合系统的Web数据服务与可视化站点模块的系统框图。图5为本专利技术提出的一种针对非结构化数据的Web服务发布与可视化的联合系统的数据入库的流程图。图6为本专利技术提出的一种针对非结构化数据的Web服务发布与可视化的联合系统的数据清洗的流程图。图7为本专利技术提出的一种针对非结构化数据的Web服务发布与可视化的联合系统的数据转换的流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。参照图1-7,一种针对非结构化数据的Web服务发布与可视化的联合系统,包括非结构化数据的预发布库模块以及非结构化数据的正式库模块,同时该系统还包括Web数据服务与可视化站点模块、数据管理与入库模块以及数据发布模块,该系统通过数据管理与入库模块对数据进行集中整理,将整理后的数据传入非结构化数据的预发布库模块进行预发布处理,并通过数据发布模块对数据的发布,将发布的数据传入非结构化数据的正式库模块,从而能够让使用者通过Web数据服务与可视化站点模块对数据进行下载以及浏览使用,数据管理与入库模块包括数据源配置单元、数据清洗单元、数据转换单元以及数据入库单元,数据源配置单元通过对数据源的配置,可以允许哪些数据流入到本系统中来,保证对数据的可控制性。数据清洗单元则是针对输入系统的数据进行清洗工作,除了日常的数据一致性检查、缺失值处理、无效值处理、重复数据判断等一系列数据检查工作外,还本文档来自技高网...

【技术保护点】
1.一种针对非结构化数据的Web服务发布与可视化的联合系统,包括非结构化数据的预发布库模块以及非结构化数据的正式库模块,其特征在于,同时该系统还包括Web数据服务与可视化站点模块、数据管理与入库模块以及数据发布模块,该系统通过数据管理与入库模块对数据进行集中整理,将整理后的数据传入非结构化数据的预发布库模块进行预发布处理,并通过数据发布模块对数据的发布,将发布的数据传入非结构化数据的正式库模块,从而能够让使用者通过Web数据服务与可视化站点模块对数据进行下载以及浏览使用,数据管理与入库模块包括数据源配置单元、数据清洗单元、数据转换单元以及数据入库单元,数据源配置单元通过对数据源的配置,可以允许哪些数据流入到本系统中来,保证对数据的可控制性。

【技术特征摘要】
1.一种针对非结构化数据的Web服务发布与可视化的联合系统,包括非结构化数据的预发布库模块以及非结构化数据的正式库模块,其特征在于,同时该系统还包括Web数据服务与可视化站点模块、数据管理与入库模块以及数据发布模块,该系统通过数据管理与入库模块对数据进行集中整理,将整理后的数据传入非结构化数据的预发布库模块进行预发布处理,并通过数据发布模块对数据的发布,将发布的数据传入非结构化数据的正式库模块,从而能够让使用者通过Web数据服务与可视化站点模块对数据进行下载以及浏览使用,数据管理与入库模块包括数据源配置单元、数据清洗单元、数据转换单元以及数据入库单元,数据源配置单元通过对数据源的配置,可以允许哪些数据流入到本系统中来,保证对数据的可控制性。2.根据权利要求1所述的一种针对非结构化数据的Web服务发布与可视化的联合系统,其特征在于,所述数据清洗单元则是针对输入系统的数据进行清洗工作,除了日常的数据一致性检查、缺失值处理、无效值处理、重复数据判断等一系列数据检查工作外,还可以通过配置或者嵌入自定义代码对数据清洗进行定制化的清洗工作,极大的提高了数据清洗的灵活性,保证数据清洗的质量。3.根据权利要求1所述的一种针对非结构化数据的Web服务发布与可视化的联合系统,其特征在于,所述数据转换单元的主要功能就是按照预先制定好的规则把数据批量自动生成数据产品,在这个过程中,还可以通过一些拖拽动作来匹配字段级别层面的元素,对于字段值也可以进行字符串操作或者计算操作,该单元提供友好的界面,用户可以通过拖拽方式来操作表级别、字段级别的元素,在数据转换过程中,配合字符串操作以及计算操作,快速的把数据的展现从一种形式转换成为另一种形式,当数据量特别大的时候(Gb级别),会极大的提高工作效率。4.根据权利要求1所述的一种针对非结构化数据的Web服务发布与可视化的联合系统,其特征在于,所述数据入库单元主要涵盖了数据质量管理以及数据入库管理两大功能,通过一些自然语言处理技术和机器学习的监督学习算法完成对数据质量的把控与管理,只有数据经过数据质量监测环节后,方可进入到后续的数据入库流程。5.根据权利要求1所述的一种针对非结构化数据的Web服务发布与可视化的联合...

【专利技术属性】
技术研发人员:王琼姚力王晓燕张飞
申请(专利权)人:武汉镝次元数据科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1