一种基于XML的非结构化数据识别方法技术

技术编号：36708616 阅读：23 留言：0更新日期：2023-03-01 09:33

本发明专利技术涉及非结构化数据识别方法技术领域，具体为一种基于XML的非结构化数据识别方法，包括以下步骤，S1：在数据存储时，对数据进行区分并添加标记；S2：定义文件内容基本属性，并进行特征识别验证。本发明专利技术中，通过基于传输时间、传输批次和传输文件项目对数据文件进行归类编组，并添加同类项扩展标记的方式建立标记备注文件，对文件进行直属单位标记和同类项标注，确保数据源内容的全面性，通过初步识别文件并注释识别内容，基于历史所识别文件，提升文件之间的参照性，使得识别效果更加完善，通过结果合并器完成处理工作，并生成独立的特征批注文件，在检索同类特征时优先调用，达成数据训练的效果，提升数据识别效率。提升数据识别效率。提升数据识别效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于XML的非结构化数据识别方法

[0001]本专利技术涉及非结构化数据识别方法
，尤其涉及一种基于XML的非结构化数据识别方法。

技术介绍

[0002]非结构化数据识别方法，是一种通过数据转译方式，达成对于非结构化数据识别功能的操作方法，现有的非结构化数据识别方法相对还不够成熟，对于大批量的数据处理缺乏参照性，并且由于非结构化数据往往是基于某一行业、领域的专项文件，在现有识别方法中，往往是根据某一行业、领域的相应内容建立专项的识别方法，对于其他领域的内容就无法进行识别，对于识别方法的全面性造成了影响，且自身不具备训练学习能力，对于多次识别无法进行识别简化工作。

技术实现思路

[0003]本专利技术的目的是解决现有技术中存在的缺点，而提出的一种基于XML的非结构化数据识别方法。
[0004]为了实现上述目的，本专利技术采用了如下技术方案：一种基于XML的非结构化数据识别方法，包括以下步骤：
[0005]S1：在数据存储时，对数据进行区分并添加标记；
[0006]S2：定义文件...

【技术保护点】

【技术特征摘要】
1.一种基于XML的非结构化数据识别方法，其特征在于，包括以下步骤：S1：在数据存储时，对数据进行区分并添加标记；S2：定义文件内容基本属性，并进行特征识别验证；S3：在数据识别过程中，首先基于所识别非结构数据文件，调用标记备注文件，进行数据的扩展查询工作；S4：初步识别文件并注释识别内容；S5：进行识别文件直读备注。2.根据权利要求1所述的基于XML的非结构化数据识别方法，其特征在于：所述S1中，所述对数据进行区分具体是将数据区分为结构化数据与非结构数据，所述在数据存储时，对数据进行区分并添加标记的具体步骤为：S111：在数据传输工作前，建立基于单位的数据标签，对数据源进行标记；S112：基于传输时间、传输批次和传输文件项目对数据文件进行归类编组，并添加同类项扩展标记；S113：建立标记备注文件。3.根据权利要求2所述的基于XML的非结构化数据识别方法，其特征在于：所述S113中，所述标记备注文件包括直属单位标记文件和同类项标注文件，所述直属单位标记文件包括单位IP、单位类别、直属单位标记，所述同类项标注文件包括时序标注、批次标注、总分序列标注。4.根据权利要求1所述的基于XML的非结构化数据识别方法，其特征在于：所述S2中，所述定义文件内容基本属性的具体步骤为：S211：根据直属单位标记文件调用同领域特征文件；S212：征求该领域专业人员，添加备注进行进一步编辑，其中进一步编辑包括特征识别依据归类、特征项目归类和备注识别类型；S213：存储为特征识别文件。5.根据权利要求1所述的基于XML的非结构化数据识别方法，其特征在于：所述S2中，所述进行特征识别验证的具体步骤为：S221：调用非结构文件样本；S222：识别关键字是否包含基本特征项目，如果判定逻辑真，则提取样本文件，查验样本文件与备注识别类型的相应内容是否具备参照性，如果判定逻辑假，则返回S221步骤，重新调用非结构文件样本，若连续调用判定均为逻辑假，则返回S212步骤，进行特征识别文件的再编辑工作；S223：基于所提取的样本文件编辑XML特征项目查询语句。6.根据权利要求1所述的基于XML的非结构化数据识别方法，其特征在于：所述S3中，所述调用标记备注...

【专利技术属性】
技术研发人员：唐如海，邵春锋，肖丹，厉雨，邵天龙，王浩，解霄博，
申请(专利权)人：国网辽宁省电力有限公司综合服务中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人