当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于OCR与命名实体提取技术的临床队列数据协同校验方法技术

技术编号:19062336 阅读:40 留言:0更新日期:2018-09-29 13:17
本发明专利技术公开了一种基于OCR与命名实体提取技术的临床队列数据协同校验方法,包括:步骤1,利用人工录入方式将纸质病历报告表电子化,得到人工录入数据;步骤2,利用OCR将纸质病历报告表电子化,识别得到纸质病历数据;步骤3,利用命名实体提取技术从电子病历中提取得到电子病历数据;步骤4,针对待校验临床队列数据,比对人工录入数据、纸质病历数据和电子病历数据,得到校验结果。本发明专利技术提供的基于OCR与命名实体提取技术的临床队列数据协同校验方法,解决现有人工校验方法成本高效率低,数据错误覆盖不全面的问题。

【技术实现步骤摘要】
一种基于OCR与命名实体提取技术的临床队列数据协同校验方法
本专利技术涉及临床数据处理
,具体涉及一种基于OCR与命名实体提取技术的临床队列数据协同校验方法。
技术介绍
临床队列研究是国际公认的探讨常见重大疾病病因的有效方法,也是研究各种遗传和环境暴露因素与健康结局关系最重要的方法之一。一方面,由于临床队列研究的样本人群基数大,随访时间长,因此需要收集的数据量通常都很庞大,在数据采集的过程中,研究对象或者数据采集人员等人为因素会不可避免地影响数据质量。另一方面,2016年颁布的《临床试验数据管理工作技术指南》明确指出,数据质量是评价研究结果的基础;在指南中也明确提出临床试验的数据必须是准确的、完整的和可靠的,因此,在实施临床队列研究时,在数据的采集环节保证数据的质量尤为重要。目前大多数临床队列的数据采集和管理方式都是先通过纸质的CRF(CaseReportForm,病历报告表)收集数据,然后将数据转录到专门的信息管理系统进行统一管理以便于后续的统计分析。有研究表明,在这样的数据采集过程中,各种人为因素(填写人员、录入人员的粗心大意和不规范操作以及研究对象的依从性等)会导致数据出现填写错误、填写遗漏、录入错误和录入遗漏。为了解决这些问题,在现有临床队列研究的实施过程中,在纸质CRF填写之后,可以通过重新问询病人或者与其它数据源(如电子病历(ElectronicMedicalRecord,EMR)进行核对的方式来找出和纠正填写遗漏和填写错误。数据录入环节常用的数据校验方法包括双录入、源数据校验和逻辑核查等方法,其中,双录入指的是不同录入人员分别录入同一份表单,通过对两次的输入值进行逐项核对,来纠正数据中的错误项;源数据校验指的是在数据录入后再次观察表单内容对录入数据进行校对;逻辑核查指的是根据生理参数的正常范围对用户提交的数据进行控制和验证。双录入和源数据校验基本能够解决录入错误和录入遗漏的问题,但双录入需要额外的人力资源,增加人力成本,而源数据校验会增加时间成本,总之费时费力。逻辑核查虽然能够在一定程度上解决录入错误和填写错误,但不能解决录入数据和纸质数据不一致的问题。总的来说,现有的这些措施可以解决部分数据问题,但是都不能全面覆盖,而且需要的成本较高。
技术实现思路
本专利技术提供了一种基于OCR与命名实体提取技术的临床队列数据协同校验方法,解决现有人工校验方法成本高效率低,数据错误覆盖不全面的问题。一种基于OCR与命名实体提取技术的临床队列数据协同校验方法,包括:步骤1,利用人工录入方式将纸质病历报告表电子化,得到人工录入数据;步骤2,利用OCR将纸质病历报告表电子化,识别得到纸质病历数据;步骤3,利用命名实体提取技术从电子病历中提取得到电子病历数据;步骤4,针对待校验临床队列数据,比对人工录入数据、纸质病历数据和电子病历数据,得到校验结果。本专利技术提供的临床队列数据协同校验方法,对人工录入数据、纸质病历数据和电子病历数据进行一致性分析,通过三种数据比对的结果,判断临床队列数据的可靠性。步骤1中,利用OCR技术解析纸质病历报告表的表单结构,利用机器学习对解析提取的内容进行识别,汇总识别结果,得到纸质病历数据。步骤2中,利用命名实体提取技术中基于规则的方法,根据待校验临床队列数据中的数据字段编写提取规则,利用规则从电子病历中提取数据,得到电子病历数据。本专利技术中的校验结果用于提示三者来源数据的不一致性,并将结果反馈给审核人员,对错误数据的进一步认定和处理,由审核人员进行。作为优选,步骤4中,遍历待校验的临床队列数据中的所有数据字段,针对每一数据字段,分别对比人工录入数据、纸质病历数据和电子病历数据,得到校验结果。作为优选,不同数据来源具有不同的可信度,根据数据的一致性,以及数据来源的可信度设置校验结果的错误等级。作为优选,步骤4中错误等级设定包括以下情况:(1)同时存在纸质病历数据、电子病历数据和人工录入数据(1-1)、若纸质病历数据、电子病历数据和人工录入数据均一致,校验结果正确;(1-2)、若纸质病历数据与电子病历数据一致,人工录入数据与纸质病历数据不一致,校验结果为录入错误,综合纸质病历数据和电子病历数据的可信度设置错误等级;(1-3)、若纸质病历数据与电子病历数据不一致,人工录入数据与纸质病历数据一致,校验结果为填写错误,根据电子病历数据的可信度设置错误等级;(1-4)、若纸质病历数据与电子病历数据不一致,人工录入数据与电子病历数据一致,校验结果为识别错误;(1-5)、若纸质病历数据、电子病历数据和人工录入数据均不一致:若电子病历数据可信度大于纸质病历数据可信度,校验结果为错误,根据电子病历数据可信度设置错误等级;若电子病历数据可信度不大于纸质病历数据可信度,校验结果为录入错误,根据纸质病历数据可信度设置错误等级;(2)、存在纸质病历数据和人工录入数据,不存在电子病历数据若纸质病历数据和人工录入数据不一致,校验结果为录入错误,根据纸质病历数据的可信度设置错误等级;若纸质病历数据和人工录入数据一致,校验结果为正确;(3)、存在电子病历数据和人工录入数据,不存在纸质病历数据(3-1)、若电子病历数据可信度大于人工录入数据的可信度,电子病历数据和人工录入数据一致,校验结果为正确;(3-2)、若电子病历数据可信度大于人工录入数据的可信度,电子病历数据和人工录入数据不一致,校验结果为错误,根据电子病历数据可信度设置错误等级;(3-3)、若电子病历数据可信度不大于人工录入数据的可信度,校验结果为录入错误,根据纸质病历数据可信度设置错误等级;(4)、存在人工录入数据,不存在纸质病历数据和电子病历数据,校验结束;(5)、存在纸质病历数据和电子病历数据,不存在人工录入数据(5-1)、若纸质病历数据和电子病历数据一致,校验结果为录入遗漏,综合纸质病历数据和电子病历数据的可信度设置错误等级;(5-2)、若纸质病历数据和电子病历数据不一致,且电子病历数据可信度大于纸质病历数据可信度,校验结果为遗漏,根据电子病历数据可信度设置错误等级;(5-3)、若纸质病历数据和电子病历数据不一致,且电子病历数据可信度不大于纸质病历数据可信度,校验结果为录入遗漏,根据纸质病历数据可信度设置错误等级;(6)、存在纸质病历数据,不存在电子病历数据和人工录入数据,校验结果为录入遗漏,根据纸质病历数据可信度设置错误等级;(7)、存在电子病历数据,不存在纸质病历数据和人工录入数据,校验结果为填写遗漏,根据电子病历数据可信度设置错误等级;(8)、不存在人工录入数据、纸质病历数据和电子病历数据,校验结束。作为优选,所述纸质病历数据和电子病历数据均采用XML文件格式存储。作为优选,步骤4中,以病人ID作为唯一标识,保存对应的校验结果。所述校验结果统一保存在数据库中,并提供对外数据接口,用于展示给数据审核人员。本专利技术基于OCR与命名实体提取技术的临床队列数据协同校验方法,利用纸质病历数据和电子病历数据对人工录入的临床队列数据进行校验,提高临床队列数据的数据质量。附图说明图1为本专利技术基于OCR与命名实体提取技术的临床队列数据协同校验方法的总体构架图;图2为本专利技术利用OCR将纸质病历报告表电子化的流程图;图3为本专利技术从电子病历中提取电子病历数据的流程图本文档来自技高网
...

【技术保护点】
1.一种基于OCR与命名实体提取技术的临床队列数据协同校验方法,其特征在于,包括:步骤1,利用人工录入方式将纸质病历报告表电子化,得到人工录入数据;步骤2,利用OCR将纸质病历报告表电子化,识别得到纸质病历数据;步骤3,利用命名实体提取技术从电子病历中提取得到电子病历数据;步骤4,针对待校验临床队列数据,比对人工录入数据、纸质病历数据和电子病历数据,得到校验结果。

【技术特征摘要】
1.一种基于OCR与命名实体提取技术的临床队列数据协同校验方法,其特征在于,包括:步骤1,利用人工录入方式将纸质病历报告表电子化,得到人工录入数据;步骤2,利用OCR将纸质病历报告表电子化,识别得到纸质病历数据;步骤3,利用命名实体提取技术从电子病历中提取得到电子病历数据;步骤4,针对待校验临床队列数据,比对人工录入数据、纸质病历数据和电子病历数据,得到校验结果。2.如权利要求1所述的基于OCR与命名实体提取技术的临床队列数据协同校验方法,其特征在于,步骤4中,遍历待校验的临床队列数据中的所有数据字段,针对每一数据字段,分别对比人工录入数据、纸质病历数据和电子病历数据,得到校验结果。3.如权利要求1所述的基于OCR与命名实体提取技术的临床队列数据协同校验方法,其特征在于,不同数据来源具有不同的可信度,根据数据的一致性,以及数据来源的可信度设置校验结果的错误等级。4.如权利要求3所述的基于OCR与命名实体提取技术的临床队列数据协同校验方法,其特征在于,步骤4中错误等级设定包括以下情况:(1)同时存在纸质病历数据、电子病历数据和人工录入数据(1-1)、若纸质病历数据、电子病历数据和人工录入数据均一致,校验结果正确;(1-2)、若纸质病历数据与电子病历数据一致,人工录入数据与纸质病历数据不一致,校验结果为录入错误,综合纸质病历数据和电子病历数据的可信度设置错误等级;(1-3)、若纸质病历数据与电子病历数据不一致,人工录入数据与纸质病历数据一致,校验结果为填写错误,根据电子病历数据的可信度设置错误等级;(1-4)、若纸质病历数据与电子病历数据不一致,人工录入数据与电子病历数据一致,校验结果为识别错误;(1-5)、若纸质病历数据、电子病历数据和人工录入数据均不一致:若电子病历数据可信度大于纸质病历数据可信度,校验结果为错误,根据电子病历数据可信度设置错误等级;若电子病历数据可信度不大于纸质病历数据可信度,校验结果为录入错误,根据纸质病历数据可信度设置错误等级;(2)、存在纸质病历数据和人工录入数据,不...

【专利技术属性】
技术研发人员:吕旭东段会龙田琪刘梦舟
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1