一种临床试验源数据自动校验方法技术

技术编号:19936769 阅读:85 留言:0更新日期:2018-12-29 05:28
本发明专利技术公开一种临床试验源数据自动校验方法,包括步骤:使用CTPN网络模型对获取的临床试验的源数据图像识别,确定文本区域,然后进行文本区域切割,切出每一行文本;对切出每一行文本进行垂直投影列切割,得到每一行文本的有效文本区域;将有效文本区域的集合依次输入经训练的CRNN网络,得到可变长序列识别结果,然后使用正则表达式提取出文本识别结果;对文本识别结果进行纠错,获得纠错结果;依据特征值集合逐一从纠错结果中提取特征值,与数据库中记录的标准特征值比对,对与标准特征值不符的提取的特征值,标志告警状态,形成错误提醒。本发明专利技术以CPTN和CRNN为核心进行临床试验源数据图像文字识别,进而实现自动化的数据校验。

【技术实现步骤摘要】
一种临床试验源数据自动校验方法
本专利技术涉及数据校验
,具体涉及一种临床试验源数据自动校验方法。
技术介绍
临床试验电子数据采集系统(EDC,ElectricDataCapturesystem)适用于药物临床试验、医学随机对照试验和医学队列研究的核心信息化系统,其核心目的是用于记录受试者的信息,形成电子随访表单。对临床试验而言,最为核心的是数据准确性,录入过程中的人为失误是导致数据不准确的一个主要原因。为此,临床试验实施团队需要指派专门的数据审核员,进行源数据校验:对数据来源的原始纸质资料(化验单、病例记录、ICU监护记录/报告等)进行人工核查,比对电子记录与源数据的一致性,称为源数据校验(SDV,SourceDataValidation)。SDV是保证临床试验数据准确性和数据质量的一项关键步骤。目前的EDC系统,由于通常采用人工方式进行源数据校验,存在两个方面的问题:其一,耗时费力,审核员需要保持高度精神集中,逐一校验关键数据,工作量不亚于重新录入一遍数据;其二,无法保证质量,试验执行团队考虑人工成本、时间周期等因素,不能够进行全面的源数据校验,通常采用抽查的方式,无法全面本文档来自技高网...

【技术保护点】
1.一种临床试验源数据自动校验方法,其特征在于,包括以下步骤:S1,使用CTPN网络模型对获取的临床试验的源数据图像识别,确定文本区域,然后进行文本区域切割,切出每一行文本;对切出每一行文本进行垂直投影列切割,得到每一行文本的有效文本区域;S2,将有效文本区域的集合依次输入经训练的CRNN网络,得到可变长序列识别结果,然后使用正则表达式提取出文本识别结果;S3,对文本识别结果进行纠错,获得纠错结果;S4,依据特征值集合逐一从纠错结果中提取特征值,并与数据库中记录的标准特征值比对,对与标准特征值不符的提取的特征值,标志告警状态,形成错误提醒。

【技术特征摘要】
1.一种临床试验源数据自动校验方法,其特征在于,包括以下步骤:S1,使用CTPN网络模型对获取的临床试验的源数据图像识别,确定文本区域,然后进行文本区域切割,切出每一行文本;对切出每一行文本进行垂直投影列切割,得到每一行文本的有效文本区域;S2,将有效文本区域的集合依次输入经训练的CRNN网络,得到可变长序列识别结果,然后使用正则表达式提取出文本识别结果;S3,对文本识别结果进行纠错,获得纠错结果;S4,依据特征值集合逐一从纠错结果中提取特征值,并与数据库中记录的标准特征值比对,对与标准特征值不符的提取的特征值,标志告警状态,形成错误提醒。2.如权利要求1所述临床试验源数据自动校验方法,其特征在于,步骤S3的对文本识别结纠错,获得纠错结果的步骤如下:使用编辑距离算法在特征值词库中查找对应的特征词,获得初步纠错结果;判断该初步纠错结果是...

【专利技术属性】
技术研发人员:刘禹翟学雷刘星宇
申请(专利权)人:北京锐客科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1