The invention provides a method for extracting and structuring XML data field based on configuration files, which includes the following steps: reading configuration files and creating tables in database; reading individual XML files and locating XML nodes according to corresponding configuration files; extracting XML data from positioned XML nodes; post-processing the extracted XML data; and number of processed data. Data is stored in tables created in the database. The invention realizes the automatic conversion of XML file to relational database, realizes the code independence of information extraction and batch operation through the automatic identification strategy of XML tag format description and processing mode based on configuration file.
【技术实现步骤摘要】
基于配置文件对XML数据进行字段提取及结构化方法
本专利技术属于XML文档自动识别
,尤其是涉及一种基于配置文件对XML数据进行字段提取及结构化方法。
技术介绍
可扩展标记语言(ExtensibleMarkupLanguage,XML)是一种用于标记电子文件使其具有结构性的标记语言。作为目前各种应用程序之间进行数据传输的最常用的工具,XML通过对文档和数据进行结构化处理,从而能够在部门、客户和供应商之间进行交换,实现动态内容生成,企业集成和应用开发。海量数据的增删改查一直以来都是数据库的强项,完全结构化的数据在数据库中的操作性能远高于半结构化或非结构化数据的同类操作。多数场景下,XML数据的入库成为了各行各业共同面临的问题。尽管XML在一定程度上对数据进行了结构化处理,XML文档本身与结构化数据库仍有着很大的区别。XML文件的访问接口已由W3C及XML_DEV邮件列表分别通过DOM(DocumentObjectModel,文档对象模型)和SAX(SimpleAPIforXML,XML简单编程接口)实现。这些接口为XML数据的提取提供了便利,但并没有解决XML ...
【技术保护点】
1.基于配置文件对XML数据进行字段提取及结构化方法,其特征在于包括如下步骤:步骤1,读取配置文件,在数据库中创建表;步骤2,读取单个的XML文件,根据对应的配置文件进行XML节点定位;步骤3,对定位的XML节点进行XML数据提取;步骤4,对提取的XML数据进行数据后处理;步骤5,将处理后的数据存入数据库中创建的表。
【技术特征摘要】
1.基于配置文件对XML数据进行字段提取及结构化方法,其特征在于包括如下步骤:步骤1,读取配置文件,在数据库中创建表;步骤2,读取单个的XML文件,根据对应的配置文件进行XML节点定位;步骤3,对定位的XML节点进行XML数据提取;步骤4,对提取的XML数据进行数据后处理;步骤5,将处理后的数据存入数据库中创建的表。2.根据权利要求1所述的基于配置文件对XML数据进行字段提取及结构化方法,其特征在于:所述配置文件的编写规则包括:数据库表的表示方法、数据字段信息的表示方法、XML节点的定位信息表示方法、XML数据提取的配置信息表示方法、数据后处理的配置信息表示方法;其编写方法包括:分析XML文件的格式,确定所有待提取的内容,并找到相应的标签路径,根据标签路径编写配置文件,每种数据内容占一行;并在配置文件中添加待提取数据对应的数据库表中的列名;多个列之间,同名的列进行合并,不同名的列作为多个表...
【专利技术属性】
技术研发人员:邱实,袁晓艳,裴非,李昊,
申请(专利权)人:天津南大通用数据技术股份有限公司,
类型:发明
国别省市:天津,12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。