The invention discloses a method for quickly filtering invalid information in XML files, including the following steps: 1) establishing an index for the XML files to be processed; 2) querying the case with the highest similarity to the index in the knowledge base; 3) matching the case with the highest similarity to the index in the knowledge base; 4) selecting the preprocessing flow of the XML file from the XML preprocessing flow base according to the matching results. (5) XML files are processed according to the selected pretreatment process; and (6) the results of the preliminary processing are transmitted to the receiving end for further processing. The invention can effectively reduce the length of the XML file to be processed, realize the beneficial effect of fast processing on the terminal, and greatly improve the efficiency.
【技术实现步骤摘要】
一种快速过滤xml文件中无效信息的方法
本专利技术属于中文分词方法
,特别是涉及一种快速过滤xml文件中无效信息的方法。
技术介绍
xml语言是具有结构性的标记语言,可以灵活的存储一对多的数据关系,具有自描述性、可扩展性、灵活性以及平台中立等优点,在软件系统中广泛用于数据存储和交换。xml具有统一的标准语法,任何系统和产品所支持的xml文档,都具有统一的格式和语法。这样就使得xml具有了跨平台跨系统的特性。电力行业相关软件应用中,数据交换时xml是首选,其原因是xml使用元素和属性来描述数据。在数据传送过程中,xml始终保留了诸如父/子关系这样的数据结构。几个应用程序可以共享和解析同一个xml文件,不必使用传统的字符串解析或拆解过程。相反,普通文件不对每个数据段做描述(除了在头文件中),也不保留数据关系结构。使用xml做数据交换可以使应用程序更具有弹性,因为可以用位置(与普通文件一样)或用元素名(从数据库)来存取xml数据。在实际应用场景中,xml文件被依照嵌套的元素标签、元素属性、元素内容等,结构化地进行分析和理解。然后按照分析所得的内容进行查询匹配,实现数据交换,然而,用户对于基于xml发布的内容事先并不清楚,很难快速、完整获取所需要的内容。尤其是对于规模较大的xml文件,其分析时间与迭代时间更长,并且因为分析错误损失的时间也更长。因此,如何解决上述问题成为本领域人员研究的重点。
技术实现思路
本专利技术的目的就是提供一种快速过滤xml文件中无效信息的方法,能有效解决上述对大规模的xml文件分析时间长的不足之处。本专利技术的目的通过下述技术方案来实现 ...
【技术保护点】
1.一种快速过滤xml文件中无效信息的方法,其特征在于:包括步骤:1)针对待处理xml文件建立索引;2)查询知识库中与该索引相似度最高的案例;3)知识库中与索引相似度最高的案例与该索引进行匹配;4)根据匹配结果,从xml预处理流程库中选取该xml文件的预处理流程;5)xml文件按照选取的预处理流程进行初步处理;6)将初步处理后的结果传递给接收端进行进一步处理。
【技术特征摘要】
1.一种快速过滤xml文件中无效信息的方法,其特征在于:包括步骤:1)针对待处理xml文件建立索引;2)查询知识库中与该索引相似度最高的案例;3)知识库中与索引相似度最高的案例与该索引进行匹配;4)根据匹配结果,从xml预处理流程库中选取该xml文件的预处理流程;5)xml文件按照选取的预处理流程进行初步处理;6)将初步处理后的结果传递给接收端进行进一步处理。2.根据权利要求1所述的一种快速过滤xml文件中无效信息的方法,其特征在于:若无法在知识库中匹配到高相似度的流程,则按照未知结构xml文件结构进行处理,整理相应的索引以及处理方法导入预处理流程库。3.根据权利...
【专利技术属性】
技术研发人员:梁哲恒,郑杰生,黄杰韬,尚艳伟,林细君,黄晓波,张金波,曾纪钧,蒋道环,沈桂泉,陈晓江,艾解清,沈伍强,吴勤勤,段福亮,朱功峰,黄载瑜,陈哲瀚,
申请(专利权)人:广东电网有限责任公司信息中心,云南云电同方科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。