The invention discloses a software technology for structured processing and fusion of unstructured large data, which relates to large data domain. After a user freely defines a field and its attributes, the application program can automatically generate and configure the field in the field definition table of the database, so that the field defined is effective in real time. When the field matches the data specified by the user, the structure of the key: value pair is stored in the database. This technology can automatically query the newly converted structural data in the existing structured data of the database by \keyword matching\, and fuse the data with the same keyword to form a new fusion data and store it.
【技术实现步骤摘要】
将非结构化大数据进行结构化处理并融合的软件技术
本专利技术涉及大数据领域,特别涉及一种将非结构化大数据进行结构化处理并融合的软件技术。
技术介绍
大数据特别是海量数据主要由非结构化数据构成。当前对大数据的利用主要是基于其非结构化的属性使用的,因此无法充分发挥大数据的价值和利用效率。同时目前对非结构化数据方法主要是采用非关系数据库,非关系型数据库既可以存储非结构化数据,也可以存储结构化数据,但是几乎不支持数据的事物处理;关系型的数据库支持事物处理,但是无法有效处理非结构化数据。另外,当前对数据进行定义采用的方式是预先在数据库中事先定义好所需的字段类型和名称,然后使用。如果出现特殊情况没有所需要的字段名称,则需要数据库管理员手动去添加,即“先定义后使用”。因此基于现有技术特点和方法,可以从软件程序的角度,采用预定义字段和自定义字段相结合的程序处理方式将非结构化数据进行结构化,即提出一种“边定义边使用”的方法。在对数据结构化的同时通过“查询公共关键字”的方式,将相关的数据融合在一起,提高数据的利用率和关联度和数据之间的耦合度。大数据普遍存在数据量大、离散性、数据噪声多、类型复杂、数据来源多元等特点,因此大数据在前期处理方面存在问题,会直接导致数据的利用效率和数据价值等方面问题。如果特定数据不进行结构化,便无法充分提高数据的利用度和利用率,也无法有效进行数据融合。现有技术即“先定义后使用”可以由管理员手动定义数据字段,但是会造成大量人力和时间成本,不适用于大数据时代的数据处理方式。
技术实现思路
本专利技术所要解决的技术问题是提供一种将非结构化大数据进行结构化处理并融 ...
【技术保护点】
1.一种将非结构化大数据进行结构化处理并融合的软件技术,其特征在于:所述将非结构化大数据进行结构化处理并融合的软件技术包括客户端程序(前端)、应用服务器程序(后端)和数据库(数据端)三部分:客户端主要作用是获取用户要处理的数据、提供用户操作界面和代替用户和应用服务器进行交互、对数据库进行操作;应用服务器作用是相应用户自定义字段的请求、运行处理程序和配置文件、与客户端及数据库进行交互,前端部分是代替用户与后端和数据端进行交互的部分,负责接收用户的请求并发送,同时接收后端对请求的响应结果;后端部分的程序包括:(1)主要是处将用户需要增加定义的字段进行程序处理、然后通过连接数据库,在数据库中的字段定义表中进行生成和映射,并进行配置并生效,此后用户可以直接使用;(2)程序自动将用户所使用的新定义的字段与相应数据进行匹配,形成“键‑值”对的结构(key:value);(3)将所有键值对进行组合,形成一条数据记录,并存入数据库中;(4)自动将新结构化的数据与已有数据进行关键字匹配,如果匹配成功进行数据融合,形成一条新的数据存入数据库中;(5)接收并处理用户对数据的增、删、改、查的操作,数据库主要用 ...
【技术特征摘要】
1.一种将非结构化大数据进行结构化处理并融合的软件技术,其特征在于:所述将非结构化大数据进行结构化处理并融合的软件技术包括客户端程序(前端)、应用服务器程序(后端)和数据库(数据端)三部分:客户端主要作用是获取用户要处理的数据、提供用户操作界面和代替用户和应用服务器进行交互、对数据库进行操作;应用服务器作用是相应用户自定义字段的请求、运行处理程序和配置文件、与客户端及数据库进行交互,前端部分是代替用户与后端和数据端进行交互的部分,负责接收用户的请求并发送,同时接收后端对请求的响应结果;后端部分的程序包括:(1)主要是处将用户需要增加定义的字段进行程序处理、然后通过连接数据库,在数据库中的字段定义表中进行生成和映射,并进行配置并生效,此后用户可以...
【专利技术属性】
技术研发人员:刘金刚,晏海华,杨峰,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。