用于对医疗数据进行数据质控的方法和装置制造方法及图纸

技术编号:36755931 阅读:13 留言:0更新日期:2023-03-04 10:47
本发明专利技术公开了用于对医疗数据进行数据质控的方法和装置,方法包括:构建医疗数据质控规则库;使用经训练的医疗实体识别网络对所获取的医疗数据进行实体识别,以识别出所述医疗数据对应的医疗实体;以及对所识别出的医疗实体自动配置所述医疗数据质控规则库中的医疗数据质控规则,以对所述医疗数据进行数据质控。本发明专利技术采用神经网络模型自动学习医疗数据的特征,无需复杂的特征工程,并且能够自动进行质控规则的配置,无需工作人员花费大量的时间与精力进行质控规则配置,提升了大体量数据质控的效率和质量,从而可适用于大规模的数据质控。质控。质控。

【技术实现步骤摘要】
用于对医疗数据进行数据质控的方法和装置


[0001]本专利技术总体上涉及数据质控领域,更具体地,涉及用于对医疗数据进行数据质控的方法和装置。

技术介绍

[0002]随着国家对医疗健康领域的改革和政策引导及大力推进全民健康发展,人民健康水平得到很大提升,同时5G及信息技术的发展,医疗健康服务的模式也发生了很大变化,从传统的手工模式转变为信息化模式,又从信息化模式转变为智能化、数字化模式。新时期医疗健康服务领域出现很多新的创新场景,如诊前预测预警,诊中临床决策支持,诊后分析及挖掘,医疗与卫生互通融合,患者与医务人员信息共享,数字化精细化管理决策等,这些场景都对现代医疗卫生供需服务提出新的要求,都需要大数据的支撑。
[0003]然而,医疗健康贯穿人们的全生命周期,涉及的医疗健康信息庞大而繁杂,在进行大数据利用之前需要对数据进行质控、治理,只有质量符合要求的数据才能产生合理赋能,否则可能就会不可用,甚至导致错误的信息,进而引起不良事件,因此数据质控显得尤其重要。
[0004]然而,现有的信息系统大都只关注业务流程的可执行性,各种系统之间缺少互通,很少关注产生的数据是否合理、合规、完整、一致等情况,加之医务人员操作不规范、操作失误等原因,实际产生的数据存在很多问题。为满足新形势下新场景的要求,出现了很多数据平台、数据中台等对产生的数据进行质控、治理,进而为业务提供支撑,但现有的数据质控都是人工处理,其效率、结果等都不理想,有待于提高。
[0005]因此,为了解决上述问题,需要一种新型的用于对医疗数据进行数据质控的方法和装置,以解决现有的医疗数据质控中存在的问题。

技术实现思路

[0006]在
技术实现思路
部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本专利技术的
技术实现思路
部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
[0007]根据本专利技术的一方面,提供了一种用于对医疗数据进行数据质控的方法,所述方法包括:构建医疗数据质控规则库;使用经训练的医疗实体识别网络对所获取的医疗数据进行实体识别,以识别出所述医疗数据对应的医疗实体;以及对所识别出的医疗实体自动配置所述医疗数据质控规则库中的医疗数据质控规则,以对所述医疗数据进行数据质控。
[0008]在一个实施例中,其中所述医疗数据包括在医疗数据表中,所述医疗数据包括字段数据,所述方法还包括:通过对所述字段数据进行实体识别,来对所述字段数据对应的医疗数据进行实体识别。
[0009]在一个实施例中,其中所述医疗实体识别网络包括预训练模型和实体识别模型。
[0010]在一个实施例中,其中所述预训练模型为ALBERT模型。
[0011]在一个实施例中,所述实体识别模型包括WC

LSTM模型和CRF模型。
[0012]在一个实施例中,其中所述经训练的医疗实体识别网络通过以下步骤进行训练而得到:对从训练语料中获取的字段数据进行标注,得到所述字段数据对应的医疗实体标签;将所述字段数据和所述医疗实体标签作为训练数据对输入所述预训练模型,得到所述字段数据的字向量;将所述字向量输入所述实体识别模型,得到所述字段数据对应的预测医疗实体;将所述医疗实体标签与所述预测医疗实体进行比较,基于所述比较的结果调整所述预训练模型和所述实体识别模型的权重;进行多次训练迭代,得到所述经训练的医疗实体识别网络。
[0013]在一个实施例中,其中所述医疗数据质控规则包括所述字段数据的必填性、规范性、结构一致性、格式一致性、值域的合理性中的一个或更多个。
[0014]根据本专利技术的另一方面,提供了一种用于对医疗数据进行数据质控的装置,所述装置包括存储器和处理器,所述存储器上存储有由所述处理器运行的计算机程序,所述计算机程序在被所述处理器运行时,使得所述处理器执行如上所述的用于对医疗数据进行数据质控的方法。
[0015]根据本专利技术的又一方面,提供了一种计算机可读介质,所述计算机可读介质上存储有计算机可执行指令,所述计算机可执行指令在被执行时,执行如上所述的用于对医疗数据进行数据质控的方法。
[0016]根据本专利技术实施例的用于对医疗数据进行数据质控的方法和装置,采用神经网络模型自动学习医疗数据的特征,无需复杂的特征工程,并且能够自动进行质控规则的配置,无需工作人员花费大量的时间与精力进行质控规则配置,提升了大体量数据质控的效率和质量,从而可适用于大规模的数据质控。
附图说明
[0017]本专利技术的下列附图在此作为本专利技术的一部分用于理解本专利技术。附图中示出了本专利技术的实施例及其描述,用来解释本专利技术的原理。
[0018]附图中:
[0019]图1示出了根据本专利技术的一个实施例的用于对医疗数据进行数据质控的方法的示例性步骤流程图;
[0020]图2示出了根据本专利技术的一个实施例的示例性医疗实体识别网络的示意性结构框图;和
[0021]图3示出了根据本专利技术的一个实施例的用于对医疗数据进行数据质控的装置的示意性结构框图。
具体实施方式
[0022]为了使得本专利技术的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本专利技术的示例实施例。显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是本专利技术的全部实施例,应理解,本专利技术不受这里描述的示例实施例的限制。基于本专利技术中描述的本专利技术实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本专利技术的保护范围之内。
[0023]现有的医疗数据质控模式主要有以下两种:
[0024]第一种模式,研发人员根据实际业务逻辑,手工编写大量数据处理程序,进而实现对数据进行质量检查,识别出数据质量问题。这种模式的主要处理流程如下:
[0025]1、梳理业务逻辑:对需要进行质控的数据信息进行业务梳理,先梳理需要质控的数据表,确定需要质控的数据表的范围,再梳理表之间的关联关系,确定业务之间的关联关系,最后梳理每张数据表各个字段的业务内涵,确认字段的质控逻辑,例如:字段是否必填、字段长度、字段是否为可编辑内容、字段是否为选项值(例如,民族)、是否有值域边界(例如,年龄)、是否有一定规则(例如,身份证号)等。
[0026]2、编写质控程序:根据上面梳理出的数据表的清单、每张表中各个字段的质控逻辑,编写质控处理程序,例如,非空校验、值域校验、规则校验等,具体技术实现有批处理程序、ETL工具、Java程序等。
[0027]3、数据质控处理:定期执行质控程序,对需要接入的数据进行数据质控,例如,手工执行、任务调度等。
[0028]此种模式需要根据大量的数据人工进行质控程序的编写,工作量大,且适应性和复用性较差,适用于小规模数据质控。
[0029]第二种模式,研发人员进行数据质控之前对业务数据进行分析、归纳,形成一定的数据质控规则,基于质控规则对接入的数据进行质控规则配置,最终开发出质控程序,调用这些质控规本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于对医疗数据进行数据质控的方法,其特征在于,所述方法包括:构建医疗数据质控规则库;使用经训练的医疗实体识别网络对所获取的医疗数据进行实体识别,以识别出所述医疗数据对应的医疗实体;以及对所识别出的医疗实体自动配置所述医疗数据质控规则库中的医疗数据质控规则,以对所述医疗数据进行数据质控。2.如权利要求1所述的方法,其特征在于,其中所述医疗数据包括在医疗数据表中,所述医疗数据包括字段数据,所述方法还包括:通过对所述字段数据进行实体识别,来对所述字段数据对应的医疗数据进行实体识别。3.如权利要求2所述的方法,其特征在于,其中所述医疗实体识别网络包括预训练模型和实体识别模型。4.如权利要求3所述的方法,其特征在于,其中所述预训练模型为ALBERT模型。5.如权利要求3所述的方法,其特征在于,所述实体识别模型包括WC

LSTM模型和CRF模型。6.如权利要求3所述的方法,其特征在于,其中所述经训练的医疗实体识别网络通过以下步骤进行训练而得到:对从训练语料中获取的字段数据进行标注,得到所述字段数据对应的医疗实体标签;将所述字段...

【专利技术属性】
技术研发人员:杜运坤毛雪东陈浩
申请(专利权)人:安徽讯飞医疗股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1