一种临床试验源数据自动校验方法技术

技术编号:19936769 阅读:70 留言:0更新日期:2018-12-29 05:28
本发明专利技术公开一种临床试验源数据自动校验方法,包括步骤:使用CTPN网络模型对获取的临床试验的源数据图像识别,确定文本区域,然后进行文本区域切割,切出每一行文本;对切出每一行文本进行垂直投影列切割,得到每一行文本的有效文本区域;将有效文本区域的集合依次输入经训练的CRNN网络,得到可变长序列识别结果,然后使用正则表达式提取出文本识别结果;对文本识别结果进行纠错,获得纠错结果;依据特征值集合逐一从纠错结果中提取特征值,与数据库中记录的标准特征值比对,对与标准特征值不符的提取的特征值,标志告警状态,形成错误提醒。本发明专利技术以CPTN和CRNN为核心进行临床试验源数据图像文字识别,进而实现自动化的数据校验。

【技术实现步骤摘要】
一种临床试验源数据自动校验方法
本专利技术涉及数据校验
,具体涉及一种临床试验源数据自动校验方法。
技术介绍
临床试验电子数据采集系统(EDC,ElectricDataCapturesystem)适用于药物临床试验、医学随机对照试验和医学队列研究的核心信息化系统,其核心目的是用于记录受试者的信息,形成电子随访表单。对临床试验而言,最为核心的是数据准确性,录入过程中的人为失误是导致数据不准确的一个主要原因。为此,临床试验实施团队需要指派专门的数据审核员,进行源数据校验:对数据来源的原始纸质资料(化验单、病例记录、ICU监护记录/报告等)进行人工核查,比对电子记录与源数据的一致性,称为源数据校验(SDV,SourceDataValidation)。SDV是保证临床试验数据准确性和数据质量的一项关键步骤。目前的EDC系统,由于通常采用人工方式进行源数据校验,存在两个方面的问题:其一,耗时费力,审核员需要保持高度精神集中,逐一校验关键数据,工作量不亚于重新录入一遍数据;其二,无法保证质量,试验执行团队考虑人工成本、时间周期等因素,不能够进行全面的源数据校验,通常采用抽查的方式,无法全面保证数据质量。
技术实现思路
本专利技术的目的是针对现有技术中存在的技术缺陷,而提供一种临床试验源数据自动校验方法,用于临床试验电子数据采集系统的源数据校验,其通过对原数据进行图像采集,自动校验核心数据(特征值)的准确性,降低人员开销,提升临床试验数据质量。为实现本专利技术的目的所采用的技术方案是:一种临床试验源数据自动校验方法,包括以下步骤:S1,使用CTPN网络模型对获取的临床试验的源数据图像识别,确定文本区域,然后进行文本区域切割,切出每一行文本;对切出每一行文本进行垂直投影列切割,得到每一行文本的有效文本区域;S2,将有效文本区域的集合依次输入经训练的CRNN网络,得到可变长序列识别结果,然后使用正则表达式提取出文本识别结果;S3,对文本识别结果进行纠错,获得纠错结果;S4,依据特征值集合逐一从纠错结果中提取特征值,并与数据库中记录的标准特征值比对,对与标准特征值不符的提取的特征值,标志告警状态,形成错误提醒。步骤S3的对文本识别结纠错,获得纠错结果的步骤如下:使用编辑距离算法在特征值词库中查找对应的特征词,获得初步纠错结果;判断该初步纠错结果是否为唯一结果,若是,则将该初步纠错结果确定为最终的纠错结果,否则,对由编辑距离算法获得的初步的纠错结果中的对每一个中文字符串,使用字形编码的方法,确定最终的纠错结果。使用字形编码的方法,确定纠错结果的步骤如下:先对初步的纠错结果集合中的中文字符串中的中文字符进行字形编码;计算每个中文字符与数据库中标准字符间的字形编码距离,将所有中文字符间的字形编码距离相加而获得两个字符串间的整体距离,根据该串整体距离来确定纠错结果。步骤S1中,切出每一行文本的步骤如下:在确定出文本区域后,判断两个文本区域在竖直方向上的重叠部分所占两个文本区域的总高度的比例是否大于一定阈值来确定两个文本区域是否处于一行;若是,则视为两行,否则视为一行。本专利技术以CPTN和CRNN算法为核心,进行临床试验源数据图像文字识别,进而实现自动化的数据校验,实现了人工智能、深度学习与临床试验信息化的有效融合。通过本专利技术,可以对临床试验源数据进行自动化校验,对可能存在问题的不符合要求的数据进行自动化告警,审核员仅需要核对小部分问题数据,极大的降低了数据审核员的工作量,并可以保证临床试验关键数据的100%校验,可以有效提升临床试验电子数据采集系统的服务能力与智能水平,降低临床试验实施团队的开销,并保证数据质量。附图说明图1是临床试验源数据自动校验方法的工作流程示意图;图2是CPTN对文本区域的定位示意图;图3是两个文本区域重叠比的计算示意图;图4是一行文本区域的定位结果示意图;图5是字形编码的结构示意图。具体实施方式以下结合附图和具体实施例对本专利技术作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术包括源数据图像采集、文字区域定位、文字识别、特征值提取和录入数据比对五个部分,其首先是通过文字区域定位来确定目标,通过文字识别算法提取文字内容,然后获取临床试验过程中关注的特征值,最后将特征值自动提取的结果与调查员录入的特征值相互比对,对于错误的录入进行标识告警。参见图1-5所示,一种临床试验源数据自动校验方法,包括:S1,使用CTPN网络模型对获取的临床试验的源数据图像识别,确定文本区域,然后进行文本区域切割,切出每一行文本;对切出每一行文本进行垂直投影列切割,得到每一行文本的有效文本区域;其中,在确定文本区域后,要根据检测出来的任意两个文本区域,第一文本区域100以及第二文本区域,它们在竖直方向上的重叠部分Y重叠占两个文本区域的总高度Y总的比例是否大于一定的阈值,如20%,来确定两个文本区域是否处于一行,最后,准确切出表单(如化验单)中的每一行文本,以实现文字区域的定位。具体的,可以是竖直方向上的重叠部分Y占总的高度的比例大于20%,则视为两行,否则视为一行。按此原则来定位行,可以实现准确的切出表单中的每一行文本,从而实现文本区域的准确定位。本专利技术通过CPTN进行文本区域识别与垂直投影列切割相结合的方法,进行不定长文字区域定位,实现了准确地切出表单中的每一行,并得到每一行文本的有效文本区域。相比直接使用CTPN对源数据图像进行文本定位的方法,更可以有效提高文本定位的准确率。其中,在本专利技术的步骤S1中,所述的临床试验的源数据图像,是在图像识别之前通过拍照而获取的,用于同步所得到图像与预先由调查人员按照源数据录入数据库中的关键数值,用于后继的校验,匹配数值录入是否正确。需要说明的是,在本专利技术的步骤S1之前,还包括数据准备及模型训练的步骤。其中,所述数据准备,用于准备确定检验用数据:其一,确定临床试验过程中的特征值词库,以全血化验单为例,其中可能被关注的特征值包括红细胞数、白细胞数等关键化验指标;其二,确定本次自动化校验的特征词集合;其三,对临床试验过程中的数据集进行标注,数据集要涵盖常见化验单、常见医学报告等,标注(采用框选方式标注)数据集中的文字数据。准备与训练CTPN和CRNN网络模型,其中所述CRNN采用搜狐新闻内容训练中英文、数字和常用符号的识别;所述CTPN采用网络开源的已经训练模型。S2,将步骤S1获得的有效文本区域的集合,依次输入经训练的CRNN网络,得到可变长序列识别结果,然后使用正则表达式提取出文本识别结果,从而实现文字的识别;S3,对上述的步骤所获得文本识别结果进行纠错,获得纠错结果;本专利技术中,由于步骤S2中形成的识别结果可能存在一定的误差,因此采用纠错方法对步骤S2形成的识别结果进行纠错。所述纠错方法可以采用现有纠错方法如编辑距离算法等,或是字形编码的的一种或两种方法结合来实现。具体的,本专利技术中,所述的步骤S3的对文本识别结纠错,获得纠错结果的步骤具体如下(采用编辑距离算法与字形编码的方法相结合的方法):使用编辑距离算法在预先设置的特征值词库中查找相似的特征词,获得初步纠错结果;判断该初步纠错结果是否为唯一结果,若是,则将该初步纠错结果确定为最终的纠错结果,否则,对本文档来自技高网...

【技术保护点】
1.一种临床试验源数据自动校验方法,其特征在于,包括以下步骤:S1,使用CTPN网络模型对获取的临床试验的源数据图像识别,确定文本区域,然后进行文本区域切割,切出每一行文本;对切出每一行文本进行垂直投影列切割,得到每一行文本的有效文本区域;S2,将有效文本区域的集合依次输入经训练的CRNN网络,得到可变长序列识别结果,然后使用正则表达式提取出文本识别结果;S3,对文本识别结果进行纠错,获得纠错结果;S4,依据特征值集合逐一从纠错结果中提取特征值,并与数据库中记录的标准特征值比对,对与标准特征值不符的提取的特征值,标志告警状态,形成错误提醒。

【技术特征摘要】
1.一种临床试验源数据自动校验方法,其特征在于,包括以下步骤:S1,使用CTPN网络模型对获取的临床试验的源数据图像识别,确定文本区域,然后进行文本区域切割,切出每一行文本;对切出每一行文本进行垂直投影列切割,得到每一行文本的有效文本区域;S2,将有效文本区域的集合依次输入经训练的CRNN网络,得到可变长序列识别结果,然后使用正则表达式提取出文本识别结果;S3,对文本识别结果进行纠错,获得纠错结果;S4,依据特征值集合逐一从纠错结果中提取特征值,并与数据库中记录的标准特征值比对,对与标准特征值不符的提取的特征值,标志告警状态,形成错误提醒。2.如权利要求1所述临床试验源数据自动校验方法,其特征在于,步骤S3的对文本识别结纠错,获得纠错结果的步骤如下:使用编辑距离算法在特征值词库中查找对应的特征词,获得初步纠错结果;判断该初步纠错结果是...

【专利技术属性】
技术研发人员:刘禹翟学雷刘星宇
申请(专利权)人:北京锐客科技有限公司
类型:发明
国别省市:北京,11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1