数据要素抽取分析系统及数据要素抽取分析方法技术方案

技术编号:15724546 阅读:125 留言:0更新日期:2017-06-29 10:31
本发明专利技术公开了一种数据要素抽取分析系统及要素抽取分析方法,该分析系统包括:数据源配置模块、数据表接入模块、要素抽取模型配置模块、要素抽取任务管理模块、要素统计分析模块、要素关联查询模块;其中,要素抽取模型配置模块可以对接入数据表灵活定义要素抽取模型,要素关联查询模块可以在要素查询结果数据信息的基础上实现数据溯源及溯源结果的要素关联,用以实现数据的深层次循环分析。

【技术实现步骤摘要】
数据要素抽取分析系统及数据要素抽取分析方法
本专利技术主要涉及数据抽取、数据统计、以及数据挖掘的关联分析,尤其涉及一种数据要素抽取分析系统及数据要素抽取分析方法。
技术介绍
随着人类社会科学技术的不断进步,互联网技术、计算机技术的快速发展,在各个行业、政府部门都积累了大量、多种类数据。如何能够依据不同的需求很好的利用这些数据,发现数据之间的隐藏的关系以及数据内部深层次的价值,是当前急需解决的问题。为了解决这些问题,当前市面上出现了多种数据分析系统,比如数据检索及关联分析、数据统计分析等,但其主要原理都基于数据表字段的精确或模糊查询,表字段之间的关联查询;表字段的统计查询;对于这类数据分析工具,由于检索的数据只能基于单张表字段(检索效率低)或多张表字段同时检索(检索性能低),对于检索结果进行数据表关键字段之间的关联展现(展现不丰富);因此这类数据分析系统的检索效率低、检索性能差、数据关联展现不丰富、数据分析层次不深入;如中国的第2013107178299号专利,其公开了一种数据的比对方法,其中包括数据的提取,但是并没有涉及数据要素的抽取及深入分析;如中国的第2014106459444号专利,其公开了一种数据抽取方法,但同样没有涉及数据要素的深入分析,难以带来实际的应用效果,提高数据分析效率。由于上述问题的存在,本专利技术人对现有的分析软件和要素抽取技术等相关技术进行研究和分析,以期待研制出可以灵活地接入数据源、可以灵活地设置要素抽取模型同时又可以对的抽取结果数据进行深层次循环分析的数据要素抽取分析系统及方法。
技术实现思路
为了解决上述问题,本专利技术人进行了锐意研究,结果发现:通过设置数据源配置模块对多个不同的业务数据库进行数据源信息的定义,以使得该系统可以对多个数据源进行灵活使用;通过设置要素抽取模型配置模块用于设置抽取模型,使得使用者可以根据自己的需求灵活的设置抽取模型;通过设置要素统计分析和要素关联查询模块使得使用者可以对要素抽取结果数据信息进行深层次的分析、统计挖掘;从而完成本专利技术。本专利技术的目的在于提供以下方面:(1)一种数据要素抽取分析系统,其特征在于,该分析系统包括展现体系001、应用体系002和数据体系003;其中,应用体系002包括:数据源配置模块0021,其作为数据连接模块用于通过配置业务数据库0031的数据源信息从而使得数据表接入模块0022接收来自业务数据库0031的数据表信息;数据表接入模块0022,其用于接收来自业务数据库0031的数据表信息,并将接收到的数据表信息作为要素抽取数据表信息传送到要素抽取模型配置模块0023;要素抽取模型配置模块0023,其用于接收要素抽取数据表信息,根据其设置要素抽取模型,并将所设置的要素抽取模型传送到要素抽取任务管理模块0024;和要素抽取任务管理模块0024,其用于对要素抽取模型进行任务管理并执行,在执行所述要素抽取模型的过程中产生抽取结果数据信息,并将其存储到要素结果库0033,或者将其传送到要素统计分析模块0011和/或要素关联查询模块0012;所述展现体系001包括:要素统计分析模块0011,其用于接收要素抽取结果数据信息,并将其按类别进行分类统计,并以表格或图形的方式进行显示;和/或要素关联查询模块0012,其用于接收要素抽取结果数据信息,并将其按检索条件进行精确检索或模糊检索后,产生检索结果,并对所述检索结果以列表的形式进行显示;所述数据体系003包括:业务数据库0031和要素结果库0033。(2)根据上述(1)所述的数据要素抽取分析系统,其特征在于,所述要素关联查询模块0012,还用以对所述检索结果进行溯源操作并显示检索结果的来源信息列表,点击来源信息列表即可查看信息详情,任选地,所述要素关联查询模块0012还可以对详情信息中的要素字段信息做下一步要素关联查询。(3)根据上述(1)所述的数据要素抽取分析系统,其特征在于,要素抽取模型包括:抽取模型名称子模块,用以存储抽取模型的名称;抽取表数据源子模块,用以存储抽取数据表的数据源信息;抽取数据表子模块,用以存储抽取数据表信息的表名;抽取表增量字段子模块,用以存储抽取数据表信息的增量字段;抽取表增量方式子模块,用以设定抽取数据表信息的增量方式;抽取表过滤条件子模块,用以设定对抽取数据表信息的过滤条件;抽取模型类别子模块,用以设定抽取模型的类别;和抽取字段定义子模块,用以存储抽取数据表的抽取字段信息。(4)根据上述(1)所述的数据要素抽取分析系统,其特征在于,所述数据体系003包括:业务数据库0031,其包括户籍信息数据库、住宿信息数据库和航班信息数据库;系统配置库0032,其用以存储系统内部产生的数据信息,其中,所述系统配置库0032中包括有数据源表、接入数据表、接入表字段、抽取模型配置表和抽取任务配置表;和要素结果库0033,其用以存储要素抽取任务管理模块在执行所述要素抽取模型的过程中产生的抽取结果数据信息;其中,优选地,业务数据库有多个,数据源配置模块作为数据连接模块使得数据表接入模块接收来自多个业务数据库中的数据表信息。(5)根据上述(1)-(4)所述的数据要素抽取分析系统,其特征在于,要素抽取模型配置模块通过对抽取模型配置表的数据信息的添加、修改和查询来配置要素抽取模型;数据源配置模块通过对数据源表的数据信息的添加、修改和删除来管理数据源信息;数据表接入模块通过对接入数据表的数据信息的添加、删除和修改来管理接入源数据表信息;要素抽取任务管理模块通过对抽取任务配置表的数据信息的进行添加、修改和删除来管理抽取任务,所述管理抽取任务即为对所述要素抽取模型进行任务管理。(6)一种数据要素抽取分析方法,其特征在于,该分析方法包括以下步骤:步骤(1):通过数据源配置模块0021配置业务数据库的数据源信息,从而使得数据表接入模块0022接收来自业务数据库0031的数据表信息;步骤(2):数据表接入模块0022根据数据源配置模块配置的数据源信息接收来自业务数据库0031的数据表信息,并将接收到的数据表信息作为要素抽取数据表信息传送到要素抽取模型配置模块0023;步骤(3):通过要素抽取模型配置模块0023接收要素抽取数据表信息,根据接收到的要素抽取数据表信息设置要素抽取模型,并将所设置的要素抽取模型传送到要素抽取任务管理模块0024;步骤(4):要素抽取任务管理模块0024对要素抽取模型进行任务管理并执行,在执行所述要素抽取模型的过程中产生抽取结果数据信息,将其存储到要素结果库0033,或者将其传送到要素统计分析模块0011和/或要素关联查询模块0012;步骤(5):通过要素统计分析模块0011对接收的要素抽取结果数据信息按类别进行分类统计,并以表格或图形的方式进行显示;和步骤(6):通过要素关联查询模块0012对接收到的要素抽取结果数据信息按检索条件进行精确检索或模糊检索后,产生检索结果,并对所述检索结果以列表的形式进行显示。(7)根据上述(6)所述的数据要素抽取分析方法,其特征在于,步骤(6)中所述要素关联查询模块0012还用以对所述检索结果进行溯源操作并显示检索结果的来源信息列表,点击来源信息列表即可查看信息详情,任选地,所述要素关联查询模块0012还可以对详情信息中的要本文档来自技高网...
数据要素抽取分析系统及数据要素抽取分析方法

【技术保护点】
一种数据要素抽取分析系统,其特征在于,该分析系统包括展现体系(001)、应用体系(002)和数据体系(003);其中,应用体系(002)包括:数据源配置模块(0021),其作为数据连接模块用于通过配置业务数据库0031的数据源信息从而使得数据表接入模块(0022)接收来自业务数据库(0031)的数据表信息;数据表接入模块(0022),其用于接收来自业务数据库(0031)的数据表信息,并将接收到的数据表信息作为要素抽取数据表信息传送到要素抽取模型配置模块(0023);要素抽取模型配置模块(0023),其用于接收要素抽取数据表信息,根据其设置要素抽取模型,并将所设置的要素抽取模型传送到要素抽取任务管理模块(0024);和要素抽取任务管理模块(0024),其用于对要素抽取模型进行任务管理并执行,在执行所述要素抽取模型的过程中产生抽取结果数据信息,并将其存储到要素结果库(0033),或者将其传送到要素统计分析模块(0011)和/或要素关联查询模块(0012);所述展现体系(001)包括:要素统计分析模块(0011),其用于接收要素抽取结果数据信息,并将其按类别进行分类统计,并以表格或图形的方式进行显示;和/或要素关联查询模块(0012),其用于接收要素抽取结果数据信息,并将其按检索条件进行精确检索或模糊检索后,产生检索结果,并对所述检索结果以列表的形式进行显示;所述数据体系(003)包括:业务数据库(0031)和要素结果库(0033)。...

【技术特征摘要】
1.一种数据要素抽取分析系统,其特征在于,该分析系统包括展现体系(001)、应用体系(002)和数据体系(003);其中,应用体系(002)包括:数据源配置模块(0021),其作为数据连接模块用于通过配置业务数据库0031的数据源信息从而使得数据表接入模块(0022)接收来自业务数据库(0031)的数据表信息;数据表接入模块(0022),其用于接收来自业务数据库(0031)的数据表信息,并将接收到的数据表信息作为要素抽取数据表信息传送到要素抽取模型配置模块(0023);要素抽取模型配置模块(0023),其用于接收要素抽取数据表信息,根据其设置要素抽取模型,并将所设置的要素抽取模型传送到要素抽取任务管理模块(0024);和要素抽取任务管理模块(0024),其用于对要素抽取模型进行任务管理并执行,在执行所述要素抽取模型的过程中产生抽取结果数据信息,并将其存储到要素结果库(0033),或者将其传送到要素统计分析模块(0011)和/或要素关联查询模块(0012);所述展现体系(001)包括:要素统计分析模块(0011),其用于接收要素抽取结果数据信息,并将其按类别进行分类统计,并以表格或图形的方式进行显示;和/或要素关联查询模块(0012),其用于接收要素抽取结果数据信息,并将其按检索条件进行精确检索或模糊检索后,产生检索结果,并对所述检索结果以列表的形式进行显示;所述数据体系(003)包括:业务数据库(0031)和要素结果库(0033)。2.根据权利要求1所述的数据要素抽取分析系统,其特征在于,所述要素关联查询模块(0012),还用以对所述检索结果进行溯源操作并显示检索结果的来源信息列表,点击来源信息列表即可查看信息详情,任选地,所述要素关联查询模块(0012)还可以对详情信息中的要素字段信息做下一步要素关联查询。3.根据权利要求1所述的数据要素抽取分析系统,其特征在于,要素抽取模型包括:抽取模型名称子模块,用以存储抽取模型的名称;抽取表数据源子模块,用以存储抽取数据表的数据源信息;抽取数据表子模块,用以存储抽取数据表信息的表名;抽取表增量字段子模块,用以存储抽取数据表信息的增量字段;抽取表增量方式子模块,用以设定抽取数据表信息的增量方式;抽取表过滤条件子模块,用以设定对抽取数据表信息的过滤条件;抽取模型类别子模块,用以设定抽取模型的类别;和抽取字段定义子模块,用以存储抽取数据表的抽取字段信息。4.根据权利要求1所述的数据要素抽取分析系统,其特征在于,所述数据体系(003)包括:业务数据库(0031),其包括户籍信息数据库、住宿信息数据库和航班信息数据库;系统配置库(0032),其用以存储系统内部产生的数据信息,其中,所述系统配置库(0032)中包括有数据源表、接入数据表、接入表字段、抽取模型配置表和抽取任务配置表;和要素结果库(0033),其用以存储要素抽取任务管理模块在执行所述要素抽取模型的过程中产生的抽取结果数据信息;其中,优选地,业务数据库有多个,数据源配置模块作为数据连接模块使得数据表接入模块接收来自多个业务数据库中的数据表信息。5.根据权利要求1-4所述的数据要素抽取分析系统,其特征在于,要素抽取模型配置模块通过对抽取模型配置表的数据信息的添加、修改和查询来配置要素抽取模型;数据源配置模块通过对数据源表的数据信息的添加、修改和删除来管理数据源信息;数据表接入模块通过对接入数据表的数据信息的添加、删除和修改来管理接入源数据表信息;要素抽取任务管理模块通过对抽取任务配置表的数据信息的进行添加、修改和删除来管理抽取任务,所述管理抽取任务即为对所述要素抽取模型进行任务管理。6....

【专利技术属性】
技术研发人员:尚林林
申请(专利权)人:北京宸瑞国新科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1