医疗数据抽取方法、装置、存储介质及电子设备制造方法及图纸

技术编号:20847420 阅读:21 留言:0更新日期:2019-04-13 09:15
本公开涉及一种医疗数据抽取方法、医疗数据抽取装置、计算机可读存储介质及电子设备。本公开实施例提供的医疗数据抽取方法包括:建立数据抽取任务并确定文本获取条件;根据所述数据抽取任务获取满足所述文本获取条件的医疗文本;根据所述数据抽取任务确定用于抽取数据的字段模板;使用所述字段模板从所述医疗文本中抽取数据;将抽取到的所述数据关联至对应的数据集合。本公开实施例所提供的医疗数据抽取方法可以适应各种医疗数据结构化项目的数据抽取需求,不仅可以提高了数据抽取效率,而且可以减少人工成本,降低出错率。

【技术实现步骤摘要】
医疗数据抽取方法、装置、存储介质及电子设备
本公开涉及数据处理
,具体涉及一种医疗数据抽取方法、医疗数据抽取装置、计算机可读存储介质及电子设备。
技术介绍
在医疗数据结构化技术中,需要很多训练数据与评估数据。特别是对于处理多医院数据的企业抽取数据到平台进行集中式的训练与测试评估是个比较困难的事情。需要工程师费时费力才能把对应的数据跟对应的结构化项目关联起来,非常繁琐,且重复劳动非常多。而且不同医院的抽取条件不一样,更会导致医学人员与开发人员反复地交互才能抽取到合适的数据。在医疗数据抽取方面主要可以采用以下两种方式:第一种方式是由工程师线下与医学人员确定每个医院抽取的条件,抽取到数据后,工程师再把对应的数据与结构化项目进行关联。在这种方法中,工程师的参入度非常高,数据抽取过程中需要工程师与医学人员针对不同医院反复核对抽取条件。对于抽取到的医疗数据,工程师直接将其与结构化项目相关联,缺乏了医学人员进行二次确认的机制,出错率高,费时费力。另外,不同开发人员的编码习惯以及使用的工具都不一样,没有一个统一的标准,普适性较差。第二种方式是由医学人员通过离线抽数平台抽取对应的数据,然后医学人员把对应的数据一一关联到对应的结构化项目中。在这种方法中,需要医学人员把数据一一关联到结构化项目中,不仅效率低下,而且容易出错。特别是对于资源比较紧张的医院,可能会花费很长的时间才能抽取到对应的数据。由此可见,目前亟需一种新型的医疗数据抽取方法,以实现快速高效地抽取医疗数据。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开的目的在于提供一种医疗数据抽取方法、医疗数据抽取装置、计算机可读存储介质及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的数据抽取效率低、普适性差、出错率高等技术问题。根据本公开的一个方面,提供一种医疗数据抽取方法,其特殊之处在于,包括:建立数据抽取任务并确定文本获取条件;根据所述数据抽取任务获取满足所述文本获取条件的医疗文本;根据所述数据抽取任务确定用于抽取数据的字段模板;使用所述字段模板从所述医疗文本中抽取数据。在本公开的一种示例性实施方式中,所述建立数据抽取任务并确定文本获取条件包括:确定一个或者多个数据抽取来源;对所述数据抽取来源建立数据抽取任务;根据所述数据抽取任务确定与所述数据抽取来源相关联的文本获取时间;根据所述数据抽取任务确定与所述数据抽取来源无关联的文本获取条件。在本公开的一种示例性实施方式中,所述文本获取条件包括病人筛选条件和/或病例筛选条件。在本公开的一种示例性实施方式中,所述根据所述数据抽取任务确定用于抽取数据的字段模板包括:根据所述数据抽取任务确定数据纳入条件;确定与所述数据纳入条件相对应的一个或者多个纳入字段;将所述纳入字段整合形成用于抽取数据的字段模板。在本公开的一种示例性实施方式中,所述根据所述数据抽取任务确定用于抽取数据的字段模板还包括:根据所述数据抽取任务和所述数据纳入条件确定数据排除条件;确定与所述数据排除条件相对应的一个或者多个排除字段;将所述排除字段整合形成用于排除数据的字段模板。在本公开的一种示例性实施方式中,所述字段模板包括字段名称和字段来源路径。在本公开的一种示例性实施方式中,所述方法还包括:根据所述数据抽取任务确定数据入库配置;根据所述数据入库配置将所述数据集合导入至数据库中。根据本公开的一个方面,提供一种医疗数据抽取装置,其特殊之处在于,包括:任务建立模块,被配置为建立数据抽取任务并确定文本获取条件;文本获取模块,被配置为根据所述数据抽取任务获取满足所述文本获取条件的医疗文本;模板确定模块,被配置为根据所述数据抽取任务确定用于抽取数据的字段模板;字段抽取模块,被配置为使用所述字段模板从所述医疗文本中抽取字段。根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特殊之处在于,所述计算机程序被处理器执行时实现以上任一所述的医疗数据抽取方法。根据本公开的一个方面,提供一种电子设备,其特殊之处在于,包括处理器和存储器;其中,存储器用于存储所述处理器的可执行指令,所述处理器被配置为经由执行所述可执行指令来执行以上任一所述的医疗数据抽取方法。本公开实施例所提供的医疗数据抽取方法通过建立数据抽取任务,并相应地设置文本获取条件以及用于抽取数据的字段模板可以形成标准化的数据抽取机制,可以适应各种医疗数据结构化项目的数据抽取需求,不仅可以提高了数据抽取效率,而且可以减少人工成本,降低出错率。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示意性示出本公开一种示例性实施方式中医疗数据抽取方法的步骤流程图。图2示意性示出本公开另一示例性实施方式中医疗数据抽取方法的步骤流程图。图3示意性示出本公开另一示例性实施方式中医疗数据抽取方法的步骤流程图。图4示意性示出本公开实施例中医疗数据抽取方法的应用场景流程框图。图5示意性示出本公开示例性实施方式中医疗数据抽取装置的组成框图。图6示意性示出本公开示例性实施方式中一种程序产品的示意图。图7示意性示出本公开示例性实施方式中一种电子设备的模块示意图。具体实施方式现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施例使得本公开将更加全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。本公开的示例性实施方式中首先提供一种医疗数据抽取方法,主要可以用于从各种不同的医疗机构或者医学研究机构的私有云资源中快速高效地抽取大量医学文本并导入至公有云数据库中,从而可以为医疗数据结构化提供可供训练和评估使用的医疗数据。参考图1所示,本示例性实施方式提供的医疗数据抽取方法主要可以包括以下步骤:步骤S110.建立数据抽取任务并确定文本获取条件。根据数据抽取的需求,本步骤首先建立与该需求相对应的数据抽取任务。数据抽取任务主要可以包括设置数据抽取的来源、数据抽取的时间以及数据抽取的相关条件。其中数据抽取的来源可以是各种医疗机构,例如可以包括医院、诊所、卫生院、疗养院等等,另外数据抽取的来源也可以是各种医学研究机构,例如可以包括医学类的高等院校、研究所、实验室、检疫检验单位等等。数据抽取的时间主要指的是执行数据抽取任本文档来自技高网
...

【技术保护点】
1.一种医疗数据抽取方法,其特征在于,包括:建立数据抽取任务并确定文本获取条件;根据所述数据抽取任务获取满足所述文本获取条件的医疗文本;根据所述数据抽取任务确定用于抽取数据的字段模板;使用所述字段模板从所述医疗文本中抽取数据。

【技术特征摘要】
1.一种医疗数据抽取方法,其特征在于,包括:建立数据抽取任务并确定文本获取条件;根据所述数据抽取任务获取满足所述文本获取条件的医疗文本;根据所述数据抽取任务确定用于抽取数据的字段模板;使用所述字段模板从所述医疗文本中抽取数据。2.根据权利要求1所述的医疗数据抽取方法,其特征在于,所述建立数据抽取任务并确定文本获取条件包括:确定一个或者多个数据抽取来源;对所述数据抽取来源建立数据抽取任务;根据所述数据抽取任务确定与所述数据抽取来源相关联的文本获取时间;根据所述数据抽取任务确定与所述数据抽取来源无关联的文本获取条件。3.根据权利要求1所述的医疗数据抽取方法,其特征在于,所述文本获取条件包括病人筛选条件和/或病例筛选条件。4.根据权利要求1所述的医疗数据抽取方法,其特征在于,所述根据所述数据抽取任务确定用于抽取数据的字段模板包括:根据所述数据抽取任务确定数据纳入条件;确定与所述数据纳入条件相对应的一个或者多个纳入字段;将所述纳入字段整合形成用于抽取数据的字段模板。5.根据权利要求4所述的医疗数据抽取方法,其特征在于,所述根据所述数据抽取任务确定用于抽取数据的字段模板还包括:根据所述数据抽取任务和所述数据纳...

【专利技术属性】
技术研发人员:滕召荣
申请(专利权)人:金色熊猫有限公司
类型:发明
国别省市:中国香港,81

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1