基于人机交互的XML信息提取方法、存储介质及电子设备技术

技术编号:33555170 阅读:28 留言:0更新日期:2022-05-26 22:51
本发明专利技术提供一种基于人机交互的XML信息提取方法、存储介质及电子设备,所述基于人机交互的XML信息提取方法包括:获取XML文件中的字段信息;根据所述字段信息生成信息提取规则;按照所述字段信息的路径,对所述信息提取规则进行去重;基于用户的字段标注操作,建立所述信息提取规则到关键字段的映射关系;利用所述映射关系对所述信息提取规则进行迭代更新。本发明专利技术可以最大程度地降低了XML数据中信息提取的成本,提高了生产效率。提高了生产效率。提高了生产效率。

【技术实现步骤摘要】
基于人机交互的XML信息提取方法、存储介质及电子设备


[0001]本专利技术属于信息提取的
,涉及一种信息提取方法,特别是涉及一种基于人机交互的XML信息提取方法、存储介质及电子设备。

技术介绍

[0002]目前,在数据治理过程中,为了从XML(eXtensible Markup Language,可扩展标记语言)格式数据中提取信息,需要人工设定XPath、正则表达式等规则。然而,所要提取的信息字段往往数目繁多,提取不同字段所用的具体规则也各不相同,再者XPath、正则表达式等规则本身更是有一定学习成本。如何让操作人员快速熟悉XPath、正则表达式等规则系统,进而在数据治理现场有效运用,成为了数据治理过程中的一个难点。
[0003]针对上述情况,尽管存在各类XML解析器,如Python的xml库等,能够可靠对单一XML文件进行解析,进而实现对统一系统下XML文件的批量信息提取,但在面对不同系统或是同一系统的不同版本时,由于数据结构发生了变化,仍然需要人工考察各个系统所用规则与提取到的信息,进而梳理从提取规则到特定字段的映射关系,或是人工设定通用规则。
[0004]因此,如何提供一种基于人机交互的XML信息提取方法、存储介质及电子设备,以解决现有技术无法免去相关技术的学习成本,最大限度的减少XML数据中信息提取所用的人力物力等缺陷,成为本领域技术人员亟待解决的技术问题。

技术实现思路

[0005]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种基于人机交互的XML信息提取方法、存储介质及电子设备,用于解决现有技术无法免去相关技术的学习成本,最大限度的减少XML数据中信息提取所用的人力物力的问题。
[0006]为实现上述目的及其他相关目的,本专利技术一方面提供一种基于人机交互的XML信息提取方法,所述基于人机交互的XML信息提取方法包括:获取XML文件中的字段信息;根据所述字段信息生成信息提取规则;按照所述字段信息的路径,对所述信息提取规则进行去重;基于用户的字段标注操作,建立所述信息提取规则到关键字段的映射关系;利用所述映射关系对所述信息提取规则进行迭代更新。
[0007]于本专利技术的一实施例中,所述获取XML文件中的字段信息的步骤,包括:利用解析器获取各系统信息与路径的表单;由所述表单中解析各系统XML中各字段信息。
[0008]于本专利技术的一实施例中,所述按照所述字段信息的路径,对所述信息提取规则进行去重的步骤,包括:查找所述表单中各字段信息的路径;针对相同的路径,仅保留一个。
[0009]于本专利技术的一实施例中,所述基于用户的字段标注操作,建立所述信息提取规则到关键字段的映射关系的步骤,包括:抽取还未进行标注的XML原件,将所述XML原件的信息进行结构化处理;对所述结构化处理的信息进行可视化;获取用户于可视化界面上针对关键字段生成的标注指令;根据所述标注指令确定所述关键字段的路径;判断所述路径是否存在,响应于所述路径不存在,针对同一关键字段,更新所述信息提取规则。
[0010]于本专利技术的一实施例中,所述对所述结构化处理的信息进行可视化的步骤,包括:将所述XML原件的信息按照不同字段进行分行显示;在显示的可视化界面中,框选出于所述关键字段对应的待标注数据;将所述待标注数据关联快捷键指令。
[0011]于本专利技术的一实施例中,所述利用所述映射关系对所述信息提取规则进行迭代更新的步骤,包括:基于所述映射关系确定新增路径,利用编辑距离为基础的聚类算法和/或最长公共子序列算法,生成迭代更新的所述信息提取规则。
[0012]于本专利技术的一实施例中,在利用所述映射关系对所述信息提取规则进行迭代更新的过程中,所述基于人机交互的XML信息提取方法还包括:保存并记录历届生成的信息提取规则,并根据现有所有标注,计算混淆矩阵;绘制准确率、召回率和/或F1分数随标注轮次的曲线;当曲线趋于平稳时,发出停止标注的提示。
[0013]于本专利技术的一实施例中,在利用所述映射关系对所述信息提取规则进行迭代更新的过程中,所述基于人机交互的XML信息提取方法还包括:抽选XML文件;在所抽选的XML文件中,利用迭代更新的所述信息提取规则进行信息模拟抽取,生成抽取结果;根据所述抽取结果发出继续标注、完成工作或进行报错的提示。
[0014]为实现上述目的及其他相关目的,本专利技术另一方面提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的基于人机交互的XML信息提取方法。
[0015]为实现上述目的及其他相关目的,本专利技术最后一方面提供一种电子设备,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行所述的基于人机交互的XML信息提取方法。
[0016]如上所述,本专利技术所述的基于人机交互的XML信息提取方法、存储介质及电子设备,具有以下有益效果:
[0017]本专利技术可以免去信息提取相关技术的学习成本,通过标注实现自动学习提取规则,能够自动从各系统中提炼信息抽取规则并通过人机交互建立从规则到特定信息字段的映射关系,最后生成通用提取规则,最大限度地减少XML数据中信息提取所用的人力物力,提高了生产效率。
附图说明
[0018]图1显示为本专利技术的基于人机交互的XML信息提取方法于一实施例中的原理流程图。
[0019]图2显示为本专利技术的基于人机交互的XML信息提取方法于一实施例中的规则更新流程图。
[0020]图3显示为本专利技术的基于人机交互的XML信息提取方法于一实施例中的可视化操作示意图。
[0021]图4显示为本专利技术的基于人机交互的XML信息提取方法于一实施例中的规则评估示意图。
[0022]图5显示为本专利技术的基于人机交互的XML信息提取方法于一实施例中的抽取结果界面示意图。
[0023]图6显示为本专利技术的电子设备于一实施例中的结构连接示意图。
[0024]元件标号说明
[0025]6ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
电子设备
[0026]61
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
处理器
[0027]62
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
存储器
[0028]S11~S15
ꢀꢀꢀꢀꢀꢀꢀ
步骤
[0029]S141~S145
ꢀꢀꢀꢀꢀ
步骤
具体实施方式
[0030]以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0031]需要说明的是,以下实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,遂图示中仅显示与本专利技术中有关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人机交互的XML信息提取方法,其特征在于,所述基于人机交互的XML信息提取方法包括:获取XML文件中的字段信息;根据所述字段信息生成信息提取规则;按照所述字段信息的路径,对所述信息提取规则进行去重;基于用户的字段标注操作,建立所述信息提取规则到关键字段的映射关系;利用所述映射关系对所述信息提取规则进行迭代更新。2.根据权利要求1所述的基于人机交互的XML信息提取方法,其特征在于,所述获取XML文件中的字段信息的步骤,包括:利用解析器获取各系统信息与路径的表单;由所述表单中解析各系统XML中各字段信息。3.根据权利要求2所述的基于人机交互的XML信息提取方法,其特征在于,所述按照所述字段信息的路径,对所述信息提取规则进行去重的步骤,包括:查找所述表单中各字段信息的路径;针对相同的路径,仅保留一个。4.根据权利要求1所述的基于人机交互的XML信息提取方法,其特征在于,所述基于用户的字段标注操作,建立所述信息提取规则到关键字段的映射关系的步骤,包括:抽取还未进行标注的XML原件,将所述XML原件的信息进行结构化处理;对所述结构化处理的信息进行可视化;获取用户于可视化界面上针对关键字段生成的标注指令;根据所述标注指令确定所述关键字段的路径;判断所述路径是否存在,响应于所述路径不存在,针对同一关键字段,更新所述信息提取规则。5.根据权利要求4所述的基于人机交互的XML信息提取方法,其特征在于,所述对所述结构化处理的信息进行可视化的步骤,包括:将所述XML原件的信息按照不同字段进行分行显示;在显示的可视化界面中,框选出于所述关键字段...

【专利技术属性】
技术研发人员:张少典马汉东沈子浩朱珉薛颜波
申请(专利权)人:上海森亿医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1