提取文档中数据的方法、装置、介质及电子设备制造方法及图纸

技术编号:20681202 阅读:27 留言:0更新日期:2019-03-27 18:58
本发明专利技术实施例提供了一种提取文档中数据的方法、装置、介质及电子设备,该方法包括:利用预设关键字Key列表对所述文档进行数据提取,以获取预设格式的初步提取内容;根据实现预设功能的函数处理所述初步提取内容,以对所述文档中数据的最终提取。通过本发明专利技术实施例的技术方案进行文档中数据的处理效率高并且适用性广。

【技术实现步骤摘要】
提取文档中数据的方法、装置、介质及电子设备
本专利技术涉及数据处理
,具体而言,涉及一种提取文档中数据的方法、装置、介质及电子设备方法、装置、介质及电子设备。
技术介绍
对文档中某些数据进行提取是各行各业均需面对和解决的问题。示例性的,临床文档构架(ClinicalDocumentArchitecture,简称:CDA)是卫生信息用户层(HealthLevel7,简称:简称HL7)第三版标准的一部分,用来规定临床文档内容的标准化。CDA文档包含诊断、手术经过、随访结果等重要信息,具有极大的研究价值。但是,CDA文档的大部分内容以可扩展标记语言(ExtensiveMakeupLanguage,简称:XML)格式进行存储。由于自然语言在诸如统计分析、归纳等方面存在较大处理困难性,因此,对于CDA文档的数据价值挖掘手段前,需先对其进行数据处理。通用的处理方法是把CDA文档进行细化归纳,例如:把手术记录拆分为,“手术时间,手术医生,手术经过,术后诊断”等,或者,针对手术经过,可以进行进一步的细化,比方“手术体位,手术部位,出入量以及吻合方式”等,才适合用于数据挖掘等研究。现有技术中,对本文档来自技高网...

【技术保护点】
1.一种提取文档中数据的方法,其特征在于,包括:利用预设关键字Key列表对所述文档进行数据提取,以获取预设格式的初步提取内容;根据实现预设功能的函数处理所述初步提取内容,以对所述文档中数据的最终提取。

【技术特征摘要】
1.一种提取文档中数据的方法,其特征在于,包括:利用预设关键字Key列表对所述文档进行数据提取,以获取预设格式的初步提取内容;根据实现预设功能的函数处理所述初步提取内容,以对所述文档中数据的最终提取。2.根据权利要求1所述的方法,其特征在于,利用预设的Key列表对所述文档进行数据提取,包括:获取多个Key,已确定所述Key列表;基于所述文档确定对每个所述Key对应的Value的判断条件;在所述文档中定位所述多个Key的位置,判断位于每个所述Key后的数据是否符合所述Key对应的Value的判断条件;若位于所述Key后的数据符合所述Key对应的Value的判断条件,则提取位于所述Key后的数据作为所述Key对应的Value。3.根据权利要求2所述的方法,其特征在于,判断位于每个所述Key后的数据是否符合所述Key对应的Value的判断条件之后,还包括:若存在位于所述Key后的数据不符合所述Key对应的Value的判断条件,则基于所述Key,利用XPath方式对所述文档进行提取。4.根据权利要求1至3任一项所述的方法,其特征在于,所述预设格式的初步提取内容包括:纯文本格式和/或可扩展标记语言XML格式。5.根据权利要求4所述的方法,其特征在于,所述预设功能包括数据清理功能,根据实现预设功能的函数处理所述初步提取内容,包括:利用JavaScript对象简谱JSON方式配置数据清理功能的函数;从所述初步提取内容中获取待数据清理的字段;所述数据清理功能的函数插...

【专利技术属性】
技术研发人员:强晟
申请(专利权)人:北京懿医云科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1