一种快速过滤xml文件中无效信息的方法技术

技术编号:20588860 阅读:43 留言:0更新日期:2019-03-16 07:09
本发明专利技术公开了一种快速过滤xml文件中无效信息的方法,包括步骤:1)针对待处理xml文件建立索引;2)查询知识库中与该索引相似度最高的案例;3)知识库中与索引相似度最高的案例与该索引进行匹配;4)根据匹配结果,从xml预处理流程库中选取该xml文件的预处理流程;5)xml文件按照选取的预处理流程进行初步处理;6)将初步处理后的结果传递给接收端进行进一步处理。本发明专利技术可以有效降低需要处理的xml文件长度,实现在终端上快速处理的有益效果,大大的提高了效率。

A Fast Method of Filtering Invalid Information in XML Files

The invention discloses a method for quickly filtering invalid information in XML files, including the following steps: 1) establishing an index for the XML files to be processed; 2) querying the case with the highest similarity to the index in the knowledge base; 3) matching the case with the highest similarity to the index in the knowledge base; 4) selecting the preprocessing flow of the XML file from the XML preprocessing flow base according to the matching results. (5) XML files are processed according to the selected pretreatment process; and (6) the results of the preliminary processing are transmitted to the receiving end for further processing. The invention can effectively reduce the length of the XML file to be processed, realize the beneficial effect of fast processing on the terminal, and greatly improve the efficiency.

【技术实现步骤摘要】
一种快速过滤xml文件中无效信息的方法
本专利技术属于中文分词方法
,特别是涉及一种快速过滤xml文件中无效信息的方法。
技术介绍
xml语言是具有结构性的标记语言,可以灵活的存储一对多的数据关系,具有自描述性、可扩展性、灵活性以及平台中立等优点,在软件系统中广泛用于数据存储和交换。xml具有统一的标准语法,任何系统和产品所支持的xml文档,都具有统一的格式和语法。这样就使得xml具有了跨平台跨系统的特性。电力行业相关软件应用中,数据交换时xml是首选,其原因是xml使用元素和属性来描述数据。在数据传送过程中,xml始终保留了诸如父/子关系这样的数据结构。几个应用程序可以共享和解析同一个xml文件,不必使用传统的字符串解析或拆解过程。相反,普通文件不对每个数据段做描述(除了在头文件中),也不保留数据关系结构。使用xml做数据交换可以使应用程序更具有弹性,因为可以用位置(与普通文件一样)或用元素名(从数据库)来存取xml数据。在实际应用场景中,xml文件被依照嵌套的元素标签、元素属性、元素内容等,结构化地进行分析和理解。然后按照分析所得的内容进行查询匹配,实现数据交换,然而,用户对于基于xml发布的内容事先并不清楚,很难快速、完整获取所需要的内容。尤其是对于规模较大的xml文件,其分析时间与迭代时间更长,并且因为分析错误损失的时间也更长。因此,如何解决上述问题成为本领域人员研究的重点。
技术实现思路
本专利技术的目的就是提供一种快速过滤xml文件中无效信息的方法,能有效解决上述对大规模的xml文件分析时间长的不足之处。本专利技术的目的通过下述技术方案来实现:一种快速过滤xml文件中无效信息的方法,包括步骤:1)针对待处理xml文件建立索引;2)查询知识库中与该索引相似度最高的案例;3)知识库中与索引相似度最高的案例与该索引进行匹配;4)根据匹配结果,从xml预处理流程库中选取该xml文件的预处理流程;5)xml文件按照选取的预处理流程进行初步处理;6)将初步处理后的结果传递给接收端进行进一步处理。作为优选,若无法在知识库中匹配到高相似度的流程,则按照未知结构xml文件结构进行处理,整理相应的索引以及处理方法导入预处理流程库。作为优选,xml文件建立索引的方法是:1)对整个xml文件中的标签进行计数和归一化;2)标签序列以及相应的归一化频次作为该类xml文件的索引信息并存入预处理流程库;3)预处理流程库同时也存有该类xml文件的预处理方法。作为优选,待处理的xml文件与知识库中案例匹配的标准为:相同关键字出现次数的总和大于知识库中其它任意案例。作为优选,整个数据传送过程中所有数据都是经过压缩后再进行传送。与现有技术相比,本专利技术的有益效果在于:本专利技术提出一种适合电力行业软件的多轮交互语义分析方法,将传统xml文件处理模式由发送端到接收端改为发送端到预处理再到接收端,可以有效降低需要处理的xml文件长度,实现在终端上快速处理的有益效果;并且因为传送过程中的文件数据被压缩,可有效降低对吞吐量和带宽的要求。附图说明图1是本专利技术的流程框图;图2是本专利技术的网络结构图;图3是本专利技术的数据交换的场景示意图。具体实施方式下面结合具体实施例和附图对本专利技术作进一步的说明。实施例一如图1至图3所示,一种快速过滤xml文件中无效信息的方法,包括步骤:1)针对待处理xml文件建立索引;2)查询知识库中与该索引相似度最高的案例;3)知识库中与索引相似度最高的案例与该索引进行匹配;4)根据匹配结果,从xml预处理流程库中选取该xml文件的预处理流程;5)xml文件按照选取的预处理流程进行初步处理;6)将初步处理后的结果传递给接收端进行进一步处理。整个方法中设计的网络结构为终端-服务器-中央服务器,终端是指终端用户,通常包括PC机;服务器指的是与中央服务器产生数据交换的其他服务器。终端之间、服务器之间、终端和中央服务器之间、服务器与中央服务器之间发生数据交换的场景为发送端到预处理再到接收端,通过预处理环节可以预先判断出待处理的xml文件的大致结构,便可以参考知识库(过去的经验,以及历史积累的模式)进行处理。本实施例中,可以有效降低需要处理的xml文件长度,实现在终端上快速处理的有益效果,大大的提高了效率。实施例二如图1至图3所示,一种快速过滤xml文件中无效信息的方法,包括步骤:1)针对待处理xml文件建立索引;2)查询知识库中与该索引相似度最高的案例;3)知识库中与索引相似度最高的案例与该索引进行匹配;4)根据匹配结果,从xml预处理流程库中选取该xml文件的预处理流程;5)xml文件按照选取的预处理流程进行初步处理;6)将初步处理后的结果传递给接收端进行进一步处理。整个方法中设计的网络结构为终端-服务器-中央服务器,终端是指终端用户,通常包括PC机;服务器指的是与中央服务器产生数据交换的其他服务器。终端之间、服务器之间、终端和中央服务器之间、服务器与中央服务器之间发生数据交换的场景为发送端到预处理再到接收端,通过预处理环节可以预先判断出待处理的xml文件的大致结构,便可以参考知识库(过去的经验,以及历史积累的模式)进行处理。待处理的xml文件部分如下:针对待处理xml文件建立索引(文件指纹)统计符合“<……>”关键字数(省略号指代的内容):240;统计PURCHASE_ITEM_ID、PURCHASEDATE、UNIQUE_PROJECT_CODE、PROJECT_NAME、TAXRATE、TAX、UNIT_PRICE_TAX的出现次数,例如分别为:228、229、206、255、200、342、341;将上述数列针对关键字数归一化形成指纹A:0.95、0.954166667、0.858333333、1.0625、0.833333333、1.425、1.420833333查询知识库中与该索引相似度最高的案例;寻找到相似度最高的案例B;指纹匹配的标准是:A和B各个数值偏差总和比知识库中的其它案例都小;根据匹配结果,选定文件初步处理模式;将初步处理传递给接收端进行进一步处理。实施例三如图1至图3所示,一种快速过滤xml文件中无效信息的方法,包括步骤:1)针对待处理xml文件建立索引;2)查询知识库中与该索引相似度最高的案例;3)知识库中与索引相似度最高的案例与该索引进行匹配;4)根据匹配结果,从xml预处理流程库中选取该xml文件的预处理流程;5)xml文件按照选取的预处理流程进行初步处理;6)将初步处理后的结果传递给接收端进行进一步处理。整个方法中设计的网络结构为终端-服务器-中央服务器,终端是指终端用户,通常包括PC机;服务器指的是与中央服务器产生数据交换的其他服务器。终端之间、服务器之间、终端和中央服务器之间、服务器与中央服务器之间发生数据交换的场景为发送端到预处理再到接收端,通过预处理环节可以预先判断出待处理的xml文件的大致结构,便可以参考知识库(过去的经验,以及历史积累的模式)进行处理。若无法在知识库中匹配到高相似度的流程,则按照未知结构xml文件结构进行处理,整理相应的索引以及处理方法导入预处理流程库。xml文件建立索引的方法是:1)对整个xml文件中的标签进行计数和归一化;2)标签序列以及相应的归一化频次作本文档来自技高网...

【技术保护点】
1.一种快速过滤xml文件中无效信息的方法,其特征在于:包括步骤:1)针对待处理xml文件建立索引;2)查询知识库中与该索引相似度最高的案例;3)知识库中与索引相似度最高的案例与该索引进行匹配;4)根据匹配结果,从xml预处理流程库中选取该xml文件的预处理流程;5)xml文件按照选取的预处理流程进行初步处理;6)将初步处理后的结果传递给接收端进行进一步处理。

【技术特征摘要】
1.一种快速过滤xml文件中无效信息的方法,其特征在于:包括步骤:1)针对待处理xml文件建立索引;2)查询知识库中与该索引相似度最高的案例;3)知识库中与索引相似度最高的案例与该索引进行匹配;4)根据匹配结果,从xml预处理流程库中选取该xml文件的预处理流程;5)xml文件按照选取的预处理流程进行初步处理;6)将初步处理后的结果传递给接收端进行进一步处理。2.根据权利要求1所述的一种快速过滤xml文件中无效信息的方法,其特征在于:若无法在知识库中匹配到高相似度的流程,则按照未知结构xml文件结构进行处理,整理相应的索引以及处理方法导入预处理流程库。3.根据权利...

【专利技术属性】
技术研发人员:梁哲恒郑杰生黄杰韬尚艳伟林细君黄晓波张金波曾纪钧蒋道环沈桂泉陈晓江艾解清沈伍强吴勤勤段福亮朱功峰黄载瑜陈哲瀚
申请(专利权)人:广东电网有限责任公司信息中心云南云电同方科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1