将非结构化大数据进行结构化处理并融合的软件技术制造技术

技术编号:18894066 阅读:32 留言:0更新日期:2018-09-08 10:45
本发明专利技术公开了一种将非结构化大数据进行结构化处理并融合的软件技术,涉及大数据领域,用户自由定义一个字段及其属性后,应用程序能够自动在数据库中的字段定义表中生成并配置该字段,使该被定义的字段实时生效,同时该字段与用户指定的数据进行匹配形成“键‑值”对(key:value)的结构存储在数据库中。该技术能够自动将新转化成的结构数据在数据库现有的结构化数据中进行“关键字匹配”方式查询,将关键字相同的数据进行融合到一起,形成一条新融合后的数据并存储。

Software technology for structuring and merging unstructured large data

The invention discloses a software technology for structured processing and fusion of unstructured large data, which relates to large data domain. After a user freely defines a field and its attributes, the application program can automatically generate and configure the field in the field definition table of the database, so that the field defined is effective in real time. When the field matches the data specified by the user, the structure of the key: value pair is stored in the database. This technology can automatically query the newly converted structural data in the existing structured data of the database by \keyword matching\, and fuse the data with the same keyword to form a new fusion data and store it.

【技术实现步骤摘要】
将非结构化大数据进行结构化处理并融合的软件技术
本专利技术涉及大数据领域,特别涉及一种将非结构化大数据进行结构化处理并融合的软件技术。
技术介绍
大数据特别是海量数据主要由非结构化数据构成。当前对大数据的利用主要是基于其非结构化的属性使用的,因此无法充分发挥大数据的价值和利用效率。同时目前对非结构化数据方法主要是采用非关系数据库,非关系型数据库既可以存储非结构化数据,也可以存储结构化数据,但是几乎不支持数据的事物处理;关系型的数据库支持事物处理,但是无法有效处理非结构化数据。另外,当前对数据进行定义采用的方式是预先在数据库中事先定义好所需的字段类型和名称,然后使用。如果出现特殊情况没有所需要的字段名称,则需要数据库管理员手动去添加,即“先定义后使用”。因此基于现有技术特点和方法,可以从软件程序的角度,采用预定义字段和自定义字段相结合的程序处理方式将非结构化数据进行结构化,即提出一种“边定义边使用”的方法。在对数据结构化的同时通过“查询公共关键字”的方式,将相关的数据融合在一起,提高数据的利用率和关联度和数据之间的耦合度。大数据普遍存在数据量大、离散性、数据噪声多、类型复杂、数据来源多元等特点,因此大数据在前期处理方面存在问题,会直接导致数据的利用效率和数据价值等方面问题。如果特定数据不进行结构化,便无法充分提高数据的利用度和利用率,也无法有效进行数据融合。现有技术即“先定义后使用”可以由管理员手动定义数据字段,但是会造成大量人力和时间成本,不适用于大数据时代的数据处理方式。
技术实现思路
本专利技术所要解决的技术问题是提供一种将非结构化大数据进行结构化处理并融合的软件技术,采用“边定义边使用”的方法结合公共关键字查询,从软件程序角度实现了非结构化数据结构化过程的半自动化和自定义化,同时提高了大数据之间的耦合度和融合性,能够显著提到大数据处理过程中的效率和提到对数据价值的利用。为实现上述目的,本专利技术提供以下的技术方案:该将非结构化大数据进行结构化处理并融合的软件技术包括客户端程序(前端)、应用服务器程序(后端)和数据库(数据端)三部分:客户端主要作用是获取用户要处理的数据、提供用户操作界面和代替用户和应用服务器进行交互、对数据库进行操作;应用服务器作用是相应用户自定义字段的请求、运行处理程序和配置文件、与客户端及数据库进行交互,前端部分是代替用户与后端和数据端进行交互的部分,负责接收用户的请求并发送,同时接收后端对请求的响应结果;后端部分的程序包括:(1)主要是处将用户需要增加定义的字段进行程序处理、然后通过连接数据库,在数据库中的字段定义表中进行生成和映射,并进行配置并生效,此后用户可以直接使用;(2)程序自动将用户所使用的新定义的字段与相应数据进行匹配,形成“键-值”对的结构(key:value);(3)将所有键值对进行组合,形成一条数据记录,并存入数据库中;(4)自动将新结构化的数据与已有数据进行关键字匹配,如果匹配成功进行数据融合,形成一条新的数据存入数据库中;(5)接收并处理用户对数据的增、删、改、查的操作,数据库主要用于数据的存储和对完成数据的操作。优选的,所述客户端与服务器主要采用“请求-响应”的方式进行交互,运行各部分的计算机采用有线网络或无线网络连接,各部分之间的通信采用HTTP协议进行通信及JSON格式进行数据交换,对硬件无特殊要求。采用以上技术方案的有益效果是:该将非结构化大数据进行结构化处理并融合的软件技术将有益于提高对大数据的数据利用效率;将有助于数据的结构化、格式化、标准化,提高数据的查询效率和利用效率;将明显降低人工处理数据时所造成的时间成本和人力成本;将有助于海量数据中相关价值数据之间的融合,有助于更深层次发掘大数据前潜在的价值;经过该专利技术处理后的数据能够具有更广泛的应用范围和存储便利性;相比现有的方法,更具有通用性。附图说明下面结合附图对本专利技术的具体实施方式作进一步详细的描述。图1是本专利技术将非结构化大数据进行结构化处理并融合的软件技术的组成结构图;图2是本专利技术将非结构化大数据进行结构化处理并融合的软件技术的具体操作过程及工作流程图;图3是本专利技术将非结构化大数据进行结构化处理并融合的软件技术的效果示意图。具体实施方式下面结合附图详细说明本专利技术将非结构化大数据进行结构化处理并融合的软件技术的优选实施方式。图1、图2和图3出示本专利技术将非结构化大数据进行结构化处理并融合的软件技术的具体实施方式:如图1所示,该将非结构化大数据进行结构化处理并融合的软件技术包括客户端程序(前端)、应用服务器程序(后端)和数据库(数据端)三部分:客户端主要作用是获取用户要处理的数据、提供用户操作界面和代替用户和应用服务器进行交互、对数据库进行操作;应用服务器作用是相应用户自定义字段的请求、运行处理程序和配置文件、与客户端及数据库进行交互,前端部分是代替用户与后端和数据端进行交互的部分,负责接收用户的请求并发送,同时接收后端对请求的响应结果;后端部分的程序包括:(1)主要是处将用户需要增加定义的字段进行程序处理、然后通过连接数据库,在数据库中的字段定义表中进行生成和映射,并进行配置并生效,此后用户可以直接使用;(2)程序自动将用户所使用的新定义的字段与相应数据进行匹配,形成“键-值”对的结构(key:value);(3)将所有键值对进行组合,形成一条数据记录,并存入数据库中;(4)自动将新结构化的数据与已有数据进行关键字匹配,如果匹配成功进行数据融合,形成一条新的数据存入数据库中;(5)接收并处理用户对数据的增、删、改、查的操作,数据库主要用于数据的存储和对完成数据的操作。客户端与服务器主要采用“请求-响应”的方式进行交互,运行各部分的计算机采用有线网络或无线网络连接,各部分之间的通信采用HTTP协议进行通信及JSON格式进行数据交换,对硬件无特殊要求。该将非结构化大数据进行结构化处理并融合的软件技术的具体操作过程及工作流程请参考附图2。该将非结构化大数据进行结构化处理并融合的软件技术的效果示意图请参考附图3。用户自由定义一个字段及其属性后,应用程序能够自动在数据库中的字段定义表中生成并配置该字段,使该被定义的字段实时生效,同时该字段与用户指定的数据进行匹配形成“键-值”对(key:value)的结构存储在数据库中。该技术能够自动将新转化成的结构数据在数据库现有的结构化数据中进行“关键字匹配”方式查询,将关键字相同的数据进行融合到一起,形成一条新融合后的数据并存储。以上的仅是本专利技术的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本专利技术创造构思的前提下,还可以做出若干变形和改进,这些都属于本专利技术的保护范围。本文档来自技高网...

【技术保护点】
1.一种将非结构化大数据进行结构化处理并融合的软件技术,其特征在于:所述将非结构化大数据进行结构化处理并融合的软件技术包括客户端程序(前端)、应用服务器程序(后端)和数据库(数据端)三部分:客户端主要作用是获取用户要处理的数据、提供用户操作界面和代替用户和应用服务器进行交互、对数据库进行操作;应用服务器作用是相应用户自定义字段的请求、运行处理程序和配置文件、与客户端及数据库进行交互,前端部分是代替用户与后端和数据端进行交互的部分,负责接收用户的请求并发送,同时接收后端对请求的响应结果;后端部分的程序包括:(1)主要是处将用户需要增加定义的字段进行程序处理、然后通过连接数据库,在数据库中的字段定义表中进行生成和映射,并进行配置并生效,此后用户可以直接使用;(2)程序自动将用户所使用的新定义的字段与相应数据进行匹配,形成“键‑值”对的结构(key:value);(3)将所有键值对进行组合,形成一条数据记录,并存入数据库中;(4)自动将新结构化的数据与已有数据进行关键字匹配,如果匹配成功进行数据融合,形成一条新的数据存入数据库中;(5)接收并处理用户对数据的增、删、改、查的操作,数据库主要用于数据的存储和对完成数据的操作。...

【技术特征摘要】
1.一种将非结构化大数据进行结构化处理并融合的软件技术,其特征在于:所述将非结构化大数据进行结构化处理并融合的软件技术包括客户端程序(前端)、应用服务器程序(后端)和数据库(数据端)三部分:客户端主要作用是获取用户要处理的数据、提供用户操作界面和代替用户和应用服务器进行交互、对数据库进行操作;应用服务器作用是相应用户自定义字段的请求、运行处理程序和配置文件、与客户端及数据库进行交互,前端部分是代替用户与后端和数据端进行交互的部分,负责接收用户的请求并发送,同时接收后端对请求的响应结果;后端部分的程序包括:(1)主要是处将用户需要增加定义的字段进行程序处理、然后通过连接数据库,在数据库中的字段定义表中进行生成和映射,并进行配置并生效,此后用户可以...

【专利技术属性】
技术研发人员:刘金刚晏海华杨峰
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1