一种基于XML的非结构化数据识别方法技术

技术编号:36708616 阅读:19 留言:0更新日期:2023-03-01 09:33
本发明专利技术涉及非结构化数据识别方法技术领域,具体为一种基于XML的非结构化数据识别方法,包括以下步骤,S1:在数据存储时,对数据进行区分并添加标记;S2:定义文件内容基本属性,并进行特征识别验证。本发明专利技术中,通过基于传输时间、传输批次和传输文件项目对数据文件进行归类编组,并添加同类项扩展标记的方式建立标记备注文件,对文件进行直属单位标记和同类项标注,确保数据源内容的全面性,通过初步识别文件并注释识别内容,基于历史所识别文件,提升文件之间的参照性,使得识别效果更加完善,通过结果合并器完成处理工作,并生成独立的特征批注文件,在检索同类特征时优先调用,达成数据训练的效果,提升数据识别效率。提升数据识别效率。提升数据识别效率。

【技术实现步骤摘要】
一种基于XML的非结构化数据识别方法


[0001]本专利技术涉及非结构化数据识别方法
,尤其涉及一种基于XML的非结构化数据识别方法。

技术介绍

[0002]非结构化数据识别方法,是一种通过数据转译方式,达成对于非结构化数据识别功能的操作方法,现有的非结构化数据识别方法相对还不够成熟,对于大批量的数据处理缺乏参照性,并且由于非结构化数据往往是基于某一行业、领域的专项文件,在现有识别方法中,往往是根据某一行业、领域的相应内容建立专项的识别方法,对于其他领域的内容就无法进行识别,对于识别方法的全面性造成了影响,且自身不具备训练学习能力,对于多次识别无法进行识别简化工作。

技术实现思路

[0003]本专利技术的目的是解决现有技术中存在的缺点,而提出的一种基于XML的非结构化数据识别方法。
[0004]为了实现上述目的,本专利技术采用了如下技术方案:一种基于XML的非结构化数据识别方法,包括以下步骤:
[0005]S1:在数据存储时,对数据进行区分并添加标记;
[0006]S2:定义文件内容基本属性,并进行特征识别验证;
[0007]S3:在数据识别过程中,首先基于所识别非结构数据文件,调用标记备注文件,进行数据的扩展查询工作;
[0008]S4:初步识别文件并注释识别内容;
[0009]S5:进行识别文件直读备注。
[0010]作为本专利技术的进一步方案,所述S1中,所述对数据进行区分具体是将数据区分为结构化数据与非结构数据,所述在数据存储时,对数据进行区分并添加标记的具体步骤为:
[0011]S111:在数据传输工作前,建立基于单位的数据标签,对数据源进行标记;
[0012]S112:基于传输时间、传输批次和传输文件项目对数据文件进行归类编组,并添加同类项扩展标记;
[0013]S113:建立标记备注文件。
[0014]作为本专利技术的进一步方案,所述S113中,所述标记备注文件包括直属单位标记文件和同类项标注文件,所述直属单位标记文件包括单位IP、单位类别、直属单位标记,所述同类项标注文件包括时序标注、批次标注、总分序列标注。
[0015]作为本专利技术的进一步方案,所述S2中,所述定义文件内容基本属性的具体步骤为:
[0016]S211:根据直属单位标记文件调用同领域特征文件;
[0017]S212:征求该领域专业人员,添加备注进行进一步编辑,其中进一步编辑包括特征识别依据归类、特征项目归类和备注识别类型;
[0018]S213:存储为特征识别文件。
[0019]作为本专利技术的进一步方案,所述S2中,所述进行特征识别验证的具体步骤为:
[0020]S221:调用非结构文件样本;
[0021]S222:识别关键字是否包含基本特征项目,如果判定逻辑真,则提取样本文件,查验样本文件与备注识别类型的相应内容是否具备参照性,如果判定逻辑假,则返回S221步骤,重新调用非结构文件样本,若连续调用判定均为逻辑假,则返回S212步骤,进行特征识别文件的再编辑工作;
[0022]S223:基于所提取的样本文件编辑XML特征项目查询语句。
[0023]作为本专利技术的进一步方案,所述S3中,所述调用标记备注文件的具体步骤为:
[0024]S311:根据标记备注文件中的直属单位标记文件,展开该非结构数据文件直属单位标记下的直属单位文件,作为总数据源;
[0025]S312:对数据源基于同类项标注文件中的时序标注、批次标注、总分序列标注建立临时索引。
[0026]作为本专利技术的进一步方案,所述S4中,所述初步识别文件并注释识别内容的具体步骤为:
[0027]S411:基于S312建立的临时索引文件,依据时序标注、批次标注、总分序列依次调用索引文件所索引的非结构文件;
[0028]S412:检索所索引的非结构文件中,是否包含所识别文件特征项的备注文件;
[0029]S413:如果是,则依据备注文件的起始标记和终止标记,在所识别特征项结尾粘贴对应特征项的备注内容,如果否则进行下一同类项文件的检索工作,直至数据源项目终止。
[0030]作为本专利技术的进一步方案,所述S5中,所述进行识别文件直读备注的具体步骤为:
[0031]S511:调用S213所存储的特征识别文件;
[0032]S512:识别关键词并检索所识别文件是否包含基本属性查询;
[0033]S513:识别关键词并检索所识别文件是否包含语义特征查询;
[0034]S514:识别关键词并检索所识别文件是否包含底层特征查询;
[0035]S515:处理S512

S514的处理结果,完成识别工作。
[0036]作为本专利技术的进一步方案,所述S512的处理方式为如果判定为逻辑真,则提取基本属性查询内容,构建查询XML语句,查询并提取内容,如果判定为逻辑假,则跳转至S513,所述S513的处理方式为如果判定为逻辑真,则提取语义特征查询内容,构建查询XML语句,查询并提取内容,如果判定为逻辑假,则跳转至S514,所述S514的处理方式为提取底层特征查询内容,构建查询XML语句,查询并提取内容。
[0037]作为本专利技术的进一步方案,所述S515的处理方式为通过结果合并器,对S512

S514的处理结果进行合并,依据关键字项目生成备注,并添加至文件尾,并依据关键字项目生成独立的特征批注文件,在检索同类特征时优先调用。
[0038]与现有技术相比,本专利技术的优点和积极效果在于:
[0039]本专利技术中,通过基于传输时间、传输批次和传输文件项目对数据文件进行归类编组,并添加同类项扩展标记的方式建立标记备注文件,对文件进行直属单位标记和同类项标注,确保数据源内容的全面性,通过定义文件内容基本属性添加基本属性,并进行特征识别验证,确保识别方式及其批注的全面性、可用性,通过初步识别文件并注释识别内容,基
于历史所识别文件,提升文件之间的参照性,使得识别效果更加完善,通过结果合并器对基本属性查询、语义特征查询、底层特征查询的处理结果进行合并,完成处理工作,并生成独立的特征批注文件,在检索同类特征时优先调用,达成数据训练的效果,提升数据识别效率。
附图说明
[0040]图1为本专利技术提出一种基于XML的非结构化数据识别方法的主要步骤示意图;
[0041]图2为本专利技术提出一种基于XML的非结构化数据识别方法的S1步骤细化示意图;
[0042]图3为本专利技术提出一种基于XML的非结构化数据识别方法的S2步骤细化示意图;
[0043]图4为本专利技术提出一种基于XML的非结构化数据识别方法的S3步骤细化示意图;
[0044]图5为本专利技术提出一种基于XML的非结构化数据识别方法的S4步骤细化示意图;
[0045]图6为本专利技术提出一种基于XML的非结构化数据识别方法的S5步骤细化示意图。
具本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于XML的非结构化数据识别方法,其特征在于,包括以下步骤:S1:在数据存储时,对数据进行区分并添加标记;S2:定义文件内容基本属性,并进行特征识别验证;S3:在数据识别过程中,首先基于所识别非结构数据文件,调用标记备注文件,进行数据的扩展查询工作;S4:初步识别文件并注释识别内容;S5:进行识别文件直读备注。2.根据权利要求1所述的基于XML的非结构化数据识别方法,其特征在于:所述S1中,所述对数据进行区分具体是将数据区分为结构化数据与非结构数据,所述在数据存储时,对数据进行区分并添加标记的具体步骤为:S111:在数据传输工作前,建立基于单位的数据标签,对数据源进行标记;S112:基于传输时间、传输批次和传输文件项目对数据文件进行归类编组,并添加同类项扩展标记;S113:建立标记备注文件。3.根据权利要求2所述的基于XML的非结构化数据识别方法,其特征在于:所述S113中,所述标记备注文件包括直属单位标记文件和同类项标注文件,所述直属单位标记文件包括单位IP、单位类别、直属单位标记,所述同类项标注文件包括时序标注、批次标注、总分序列标注。4.根据权利要求1所述的基于XML的非结构化数据识别方法,其特征在于:所述S2中,所述定义文件内容基本属性的具体步骤为:S211:根据直属单位标记文件调用同领域特征文件;S212:征求该领域专业人员,添加备注进行进一步编辑,其中进一步编辑包括特征识别依据归类、特征项目归类和备注识别类型;S213:存储为特征识别文件。5.根据权利要求1所述的基于XML的非结构化数据识别方法,其特征在于:所述S2中,所述进行特征识别验证的具体步骤为:S221:调用非结构文件样本;S222:识别关键字是否包含基本特征项目,如果判定逻辑真,则提取样本文件,查验样本文件与备注识别类型的相应内容是否具备参照性,如果判定逻辑假,则返回S221步骤,重新调用非结构文件样本,若连续调用判定均为逻辑假,则返回S212步骤,进行特征识别文件的再编辑工作;S223:基于所提取的样本文件编辑XML特征项目查询语句。6.根据权利要求1所述的基于XML的非结构化数据识别方法,其特征在于:所述S3中,所述调用标记备注...

【专利技术属性】
技术研发人员:唐如海邵春锋肖丹厉雨邵天龙王浩解霄博
申请(专利权)人:国网辽宁省电力有限公司综合服务中心
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1