一种面向非结构化证据文件的分析方法及系统技术方案

技术编号:20796969 阅读:41 留言:0更新日期:2019-04-06 10:34
本发明专利技术公开了一种面向非结构化证据文件的分析方法及系统,所述分析方法通过配置非结构化数据文件元数据信息与数据源转换规则信息到数据库;通过解析引擎动态生成前端页面;并根据文件元数据信息与数据源转换规则信息动态完成数据绑定与数据填充,完成非结构化数据与结构化数据的聚合存储,聚合展示,最终达到非结构化证据文件的快速检索,分析的目的。本发明专利技术不仅设计实现方式统一、服务管理较容易、能够管理不同数据库和非结构化文件,而且还大大减少了开发人员的工作量,提高了数据再处理的速度,达到了对非结构化证据文件管理的通用化、封装化及稳定性要求。

An Analysis Method and System for Unstructured Evidence Documents

The invention discloses an analysis method and system for unstructured evidence files, which configures metadata information of unstructured data files and data source conversion rule information to database, generates front-end pages dynamically by parsing engine, and completes data binding and data filling dynamically according to metadata information of documents and data source conversion rule information. The aggregated storage and display of unstructured data and structured data ultimately achieve the purpose of fast retrieval and analysis of unstructured evidence files. The invention not only has unified design and implementation mode, easy service management, and can manage different databases and unstructured files, but also greatly reduces the workload of developers, improves the speed of data reprocessing, and achieves the requirements of generalization, encapsulation and stability of unstructured evidence file management.

【技术实现步骤摘要】
一种面向非结构化证据文件的分析方法及系统
本专利技术涉及数据处理
,特别是一种面向非结构化证据文件的分析方法及系统。
技术介绍
对于来源繁多的信息资料,专业人士根据信息的格式加以划分,将其分为结构化信息和非结构化信息两大类。其中,结构化信息是可以数字化的数据信息,可以方便地通过计算机和数据库技术进行管理;而无法完全数字化的信息称为非结构化信息,如文档文件、图片、图纸资料、缩微胶片等,这些资源中拥有大量的、有价值的证据信息,伴随着非结构化信息正以成倍的速度增长的趋势,如何快速有效地对其处理后再利用是目前分析处理的难题之一。为了有效的对非结构化证据文件进行分析和管理,解决非结构化证据文件利用率不高、无法归档等问题,需要引入非结构化数据管理机制。通常情况下,对非结构化数据的分析需要强大的计算能力,将海量的非结构化证据文件转为文本,再在此基础上进行关联、分析和检索。这一过程耗时耗力,且转化出的数据质量良莠不齐,无法形成相对统一、准确的分析维度,因此非结构化数据存在难管理、检索慢、效率低以及出错率高等问题。
技术实现思路
本专利技术需要解决的技术问题是克服现有技术的不足而提供一种面向非结构化证据文件的分析方法及系统,能够减少开发人员的工作量,设计实现方式统一,能够转化及管理非结构化证据文件。为解决上述技术问题,本专利技术所采取的技术方案如下。一种面向非结构化证据文件的分析方法,所述分析方法包括以下步骤:A.针对web页面控件元素制定一套配置规则,按照配置规则构建界面解析引擎;B.针对数据库DDL、DML语句特点制定一套映射规则,按照映射规则构建智能填充引擎;C.配置非结构化证据文件的元数据信息,通过步骤A制定的配置规则配置界面元数据,通过步骤B制定的映射规则配置数据元数据;D.根据步骤C配置的界面元数据经由配置A构建的界面解析引擎生成非结构化证据文件的重要信息表单;E.根据步骤C配置的数据元数据经由配置B构建的智能填充引擎智能填充步骤D生成的重要信息表单内容;F.在步骤E生成的重要信息表单中上传非结构化证据文件,将表单内容与非结构化证据文件绑定后统一保存入数据库;G.将步骤F产生的内容以非结构化证据文件重要信息表单和非结构证据文件在线预览的方式做关联展示,通过重要信息表单内容实现多维度检索、分析;通过文件在线预览、编辑操作实现非结构化证据文件的处理。上述一种面向非结构化证据文件的分析方法,步骤A中所述的web页面控件元素包括文本框、下拉框、时间选择器和列表选择框;所述配置规则指用户自定义上述web页面控件的样式与行为时应遵守的约束;所述界面解析引擎指系统根据用户配置的控件自动生成用户界面的代码模块。上述一种面向非结构化证据文件的分析方法,步骤A的实现过程包括以下步骤:A1.列举常用web前端控件,对其属性与行为进行抽象,将各前端控件特征点抽取出用户可自定义的配置点;A2.读取用户配置,使用velocity模板技术将用户配置转换成浏览器前端可渲染的html/css/javascript代码。上述一种面向非结构化证据文件的分析方法,步骤B中所述数据库DML语句指数据库结构定义语言,数据库DDL语句指数据库内容操作语言,所述映射规则指用户自定义重要信息表单字段与业务数据关联关系时应遵守的约束;所述智能填充引擎指系统根据用户配置的关联关系自动为界面控件填充业务数据的代码模块。上述一种面向非结构化证据文件的分析方法,步骤B的实现过程包括以下步骤:B1.通过用户配置的业务数据库连接信息,获取业务数据库的表结构与字段信息;B2.用户根据业务需求指定非结构化证据文件界面元数据中控件应填充数据库中哪张表、哪个字段的数据;B3.智能填充引擎根据用户配置自动生成数据获取SQL语句;B4.智能填充引擎至业务数据库获取数据后,自动与重要信息表单控件绑定。上述一种面向非结构化证据文件的分析方法,步骤C的配置过程包括以下步骤:C1.配置元数据字典,包括元数据类别、可关联非结构化证据文件的类别;C2.配置元数据的基本信息,包括名称、分类、描述;C3.配置界面元数据信息,包括表头、表单、表尾的控件个数、控件类型、字段类型;表头、表单、表尾均可包含多个字段;C4.配置数据元数据信息,包括源业务数据库连接信息、表单字段与业务数据库表结构与字段的映射关系。上述一种面向非结构化证据文件的分析方法,步骤F的实现过程包括以下步骤:F1.用户编辑重要信息表单并上传非结构化证据文件;F2.系统将非结构化证据文件存储到MongoDB数据库;F3.系统将重要信息表单信息存储到关系型数据库;F4.绑定MongoDB数据库与关系型数据库。上述一种面向非结构化证据文件的分析方法,步骤G中的实现过程包括以下步骤:G1.通过检索、分析重要信息表单内容实现非结构化证据文件快速定位与归类统计;G2.通过OpenOffice技术实现非结构化证据文件的在线预览、编辑、转换功能。一种面向非结构化证据文件的分析系统,包括界面解析引擎、智能填充引擎、数据元数据配置单元、数据展示和分析单元以及数据库;其中:界面解析引擎:用于制定web页面控件元素的配置规则,并负责将用户配置信息解析成前端页面控件,实现根据用户的配置动态生成非结构化证据文件重要信息表单的功能;智能填充引擎:用于制定数据映射规则,并负责根据用户配置信息对生成的重要信息表单进行智能回填.;数据元数据配置单元:用于配置非结构化证据文件的界面元数据及数据元数据到数据库;数据展示和分析单元:用于实现非结构证据文件的检索、分析、预览操作。由于采用了以上技术方案,本专利技术所取得技术进步如下。本专利技术使得开发人员在开发时仅需针对每类非结构化证据文件通过简单配置就可以解决业务数据库信息与非结构化证据文件的绑定和回填,该过程无需修改代码即可完成,实现了通用且高效稳定的非结构化数据的分析;不仅设计实现方式统一、服务管理较容易、能够管理不同数据库和非结构化文件,而且还大大减少了开发人员的工作量,提高了数据再处理的速度,达到了对非结构化证据文件管理的通用化、封装化及稳定性要求。附图说明图1为本专利技术的流程图;图2为本专利技术中步骤C的流程图。具体实施方式下面将结合附图和具体实施例对本专利技术进行进一步详细说明。一种面向非结构化证据文件的分析方法,其流程如图1所示,具体包括以下步骤。A.针对web页面控件元素制定一套配置规则,按照配置规则基于velocity模板技术构建界面解析引擎;用于解析上述配置规则。其中,web页面控件元素包括文本框、下拉框、时间选择器和列表选择框;配置规则指用户自定义上述web页面控件的样式与行为时应遵守的约束;界面解析引擎指系统根据用户配置的控件自动生成用户界面的代码模块。具体操作时,首先列举常用web前端控件,对其属性与行为进行抽象,将各前端控件特征点抽取出用户可自定义的配置点;其次,读取用户配置,使用velocity模板技术将用户配置转换成浏览器前端可渲染的html/css/javascript代码。B.针对数据库DDL、DML语句特点制定一套映射规则,按照映射规则基于动态SQL生成技术构建智能填充引擎;用于解析上述映射规则。其中,数据库DML语句指数据库结构定义语言,数据库DDL语句指数据库内容操作语言;映射规则指用户自定义重要信本文档来自技高网...

【技术保护点】
1.一种面向非结构化证据文件的分析方法,其特征在于,所述分析方法包括以下步骤:A.针对web页面控件元素制定一套配置规则,按照配置规则构建界面解析引擎;B.针对数据库DDL、DML语句特点制定一套映射规则,按照映射规则构建智能填充引擎;C.配置非结构化证据文件的元数据信息,通过步骤A制定的配置规则配置界面元数据,通过步骤B制定的映射规则配置数据元数据;D.根据步骤C配置的界面元数据经由配置A构建的界面解析引擎生成非结构化证据文件的重要信息表单;E.根据步骤C配置的数据元数据经由配置B构建的智能填充引擎智能填充步骤D生成的重要信息表单内容;F.在步骤E生成的重要信息表单中上传非结构化证据文件,将表单内容与非结构化证据文件绑定后统一保存入数据库;G.将步骤F产生的内容以非结构化证据文件重要信息表单和非结构证据文件在线预览的方式做关联展示,通过重要信息表单内容实现多维度检索、分析;通过文件在线预览、编辑操作实现非结构化证据文件的处理。

【技术特征摘要】
1.一种面向非结构化证据文件的分析方法,其特征在于,所述分析方法包括以下步骤:A.针对web页面控件元素制定一套配置规则,按照配置规则构建界面解析引擎;B.针对数据库DDL、DML语句特点制定一套映射规则,按照映射规则构建智能填充引擎;C.配置非结构化证据文件的元数据信息,通过步骤A制定的配置规则配置界面元数据,通过步骤B制定的映射规则配置数据元数据;D.根据步骤C配置的界面元数据经由配置A构建的界面解析引擎生成非结构化证据文件的重要信息表单;E.根据步骤C配置的数据元数据经由配置B构建的智能填充引擎智能填充步骤D生成的重要信息表单内容;F.在步骤E生成的重要信息表单中上传非结构化证据文件,将表单内容与非结构化证据文件绑定后统一保存入数据库;G.将步骤F产生的内容以非结构化证据文件重要信息表单和非结构证据文件在线预览的方式做关联展示,通过重要信息表单内容实现多维度检索、分析;通过文件在线预览、编辑操作实现非结构化证据文件的处理。2.根据权利要求1所述的一种面向非结构化证据文件的分析方法,其特征在于,步骤A中所述的web页面控件元素包括文本框、下拉框、时间选择器和列表选择框;所述配置规则指用户自定义上述web页面控件的样式与行为时应遵守的约束;所述界面解析引擎指系统根据用户配置的控件自动生成用户界面的代码模块。3.根据权利要求2所述的一种面向非结构化证据文件的分析方法,其特征在于,步骤A的实现过程包括以下步骤:A1.列举常用web前端控件,对其属性与行为进行抽象,将各前端控件特征点抽取出用户可自定义的配置点;A2.读取用户配置,使用velocity模板技术将用户配置转换成浏览器前端可渲染的html/css/javascript代码。4.根据权利要求1所述的一种面向非结构化证据文件的分析方法,其特征在于:步骤B中所述数据库DML语句指数据库结构定义语言,数据库DDL语句指数据库内容操作语言,所述映射规则指用户自定义重要信息表单字段与业务数据关联关系时应遵守的约束;所述智能填充引擎指系统根据用户配置的关联关系自动为界面控件填充业务数据的代码模块。5.根据权利要求4所述的一种面向非结构化证据文件的分析方法,其特征在于,步骤...

【专利技术属性】
技术研发人员:陈继良吴明武欧炳杰刘怀春吴海平
申请(专利权)人:珠海市新德汇信息技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1