用于临床试验的数据处理系统技术方案

技术编号:37768397 阅读:14 留言:0更新日期:2023-06-06 13:30
本发明专利技术涉及数据处理技术领域,尤其涉及一种用于临床试验的数据处理系统,本发明专利技术通过设置数据存储模块、数据采集模块以及数据处理模块,数据处理模块基于文字轮廓集中存在相同字体类型的文字轮廓的比例解析分析手写试验记录文本的字体相似状况,在第一字体相似状况下,将全部文字轮廓与随机选取的字体数据库中存储的预设文字轮廓进行对比以判定各文字轮廓所表示的文字,在第二字体相似状况下,选取文字轮廓集中占比最高的字体类型所对应的字体数据库,并逐个确定全部文字轮廓中各文字轮廓与已选取的字体数据库的中存储的预设文字轮廓的重合度判定各文字轮廓所表示的文字,在保证可靠性的前提下,提高了对手写试验记录文本进行识别的效率与精度。本进行识别的效率与精度。本进行识别的效率与精度。

【技术实现步骤摘要】
用于临床试验的数据处理系统


[0001]本专利技术涉及数据处理
,尤其涉及一种用于临床试验的数据处理系统。

技术介绍

[0002]临床试验需要记录患者作为受试者参与临床试验期间的与试验相关的临床数据,对临床数据识别的效果直接影响试验数据的可靠性,对试验药物的疗效与安全性的确定有重要影响,以及,对临床数据识别的速度直接关乎数据录入工作的效率。
[0003]中国专利公开号:CN109102844A,公开了如下内容,该专利技术公开一种临床试验源数据自动校验方法,包括步骤:使用CTPN网络模型对获取的临床试验的源数据图像识别,确定文本区域,然后进行文本区域切割,切出每一行文本;对切出每一行文本进行垂直投影列切割,得到每一行文本的有效文本区域;将有效文本区域的集合依次输入经训练的CRNN网络,得到可变长序列识别结果,然后使用正则表达式提取出文本识别结果;对文本识别结果进行纠错,获得纠错结果;依据特征值集合逐一从纠错结果中提取特征值,与数据库中记录的标准特征值比对,对与标准特征值不符的提取的特征值,标志告警状态,形成错误提醒。该专利技术以CPTN和CRNN为核心进行临床试验源数据图像文字识别,进而实现自动化的数据校验。
[0004]但是,现有技术中,还存在以下问题:
[0005]在现有技术中,未考虑手写文本中字体的不同会对文本识别的精度造成影响,未考虑设置多种字体的对比数据库进行对比确定手写文本的字体。

技术实现思路

[0006]为解决现有技术中未考虑手写文本中字体的不同会对文本识别的精度造成影响,未考虑设置多种字体的对比数据库进行对比确定手写文本的字体的问题,本专利技术提供一种用于临床试验的数据处理系统,其包括:
[0007]数据存储模块,其包括若干字体数据库,用以储存对应字体类型的若干预设文字轮廓;
[0008]数据采集模块,其包括一图像采集单元,以对手写试验记录文本进行拍摄获取图像;
[0009]数据处理模块,其包括相互连接的图像分析单元、第一运算单元以及第二运算单元,所述图像分析单元、第一运算单元以及第二运算单元均与所述数据采集模块以及数据存储模块连接,
[0010]所述图像分析单元用以获取所述图像采集单元拍摄的图像,从所述图像中提取预设行数的文字轮廓得到文字轮廓集,将所述文字轮廓集中的各所述文字轮廓与各字体数据库中的数据进行对比,以根据对比结果判定各所述文字轮廓所属的字体类型,并基于所述文字轮廓集中存在相同字体类型的文字轮廓的比例解析分析所述手写试验记录文本的字体相似状况;
[0011]所述第一运算单元用以在所述图像分析单元解析获取第一字体相似状况下,提取所述图像中的全部文字轮廓,逐个将文字轮廓与随机选取的字体数据库中存储的预设文字轮廓进行对比并计算重合度,基于重合度判定各所述文字轮廓所表示的文字;
[0012]所述第二运算单元用以在所述图像分析单元解析获取第二字体相似状况下,提取所述图像中全部文字轮廓,选取所述文字轮廓集中占比最高的字体类型所对应的字体数据库,并逐个确定各所述文字轮廓与已选取的字体数据库的中存储的预设文字轮廓的重合度,并基于重合度判定各所述文字轮廓所表示的文字。
[0013]进一步地,所述图像分析单元将所述文字轮廓集中的各所述文字轮廓与各字体数据库中的预设文字轮廓进行对比,以计算所述文字轮廓与预设文字轮廓的重合度C,并筛选出最大重合度Cm,将所述最大重合度Cm与预设的最大重合度对比阈值Cm0进行对比,并根据对比结果判定所述文字轮廓所属的字体类型,其中,
[0014]所述图像分析单元确定计算所述最大重合度Cm时所选用的字体数据库,
[0015]在第一重合度对比结果下,所述图像分析单元判定所述文字轮廓属于所述字体数据库对应的字体类型;
[0016]在第二重合度对比结果下,所述图像分析单元判定所述文字轮廓不属于所述字体数据库对应的字体类型;
[0017]其中,所述第一重合度对比结果为Cm≥Cm0,所述第二重合度对比结果为Cm<Cm0。
[0018]进一步地,所述图像分析单元按照公式(1)计算所述文字轮廓集中各字体类型的文字轮廓数量占比P,
[0019][0020]公式(1)中,n表示属于相同字体类型的文字轮廓的数量,N表示所述文字轮廓集中文字轮廓的数量。
[0021]进一步地,所述图像分析单元对已计算的各字体类型的文字轮廓数量占比进行筛选,以筛选出最大数量占比P
M,
将最大数量占比P
M
与预设的占比对比阈值P0进行对比,并根据对比结果解析判定所述手写试验记录文本的字体相似状况,其中,
[0022]若对比结果满足第一占比条件,所述图像分析单元判定所述手写试验记录文本为第一字体相似状况;
[0023]若对比结果满足第二占比条件,所述图像分析单元判定所述手写试验记录文本为第二字体相似状况;
[0024]其中,所述第一占比条件为P
M
<P0,所述第二占比条件为P
M
≥P0。
[0025]进一步地,所述第一运算单元或所述第二运算单元逐个将文字轮廓与选取的字体数据库中存储的若干预设文字轮廓进行对比,以计算文字轮廓与预设文字轮廓的重合度C,并筛选出最大重合度Cm将所述最大重合度Cm与预设的标准重合度对比阈值C0进行对比,并根据对比结果判定所述文字轮廓所表示的文字,其中,C0>Cm0,
[0026]在第三重合度对比结果下,所述第一运算单元或所述第二运算单元判定所述文字轮廓与所述预设文字轮廓所关联的文字相同;
[0027]在第四重合度对比结果下,所述第一运算单元或所述第二运算单元判定所述文字轮廓无法识别所表示的文字;
[0028]所述第三重合度对比结果为Cm>C0,所述第四重合度对比结果为Cm≤C0。
[0029]进一步地,所述数据存储模块还包括数据库解析单元,用以根据各字体数据库中存储的预设文字轮廓的重合度,确定各字体数据库间的相似度,其中,
[0030]所述数据库解析单元选取任意两个字体数据库,并逐个从两个字体数据库中调用预设字体轮廓进行对比,以确定已调用的预设字体轮廓的重合度,并按照公式(2)计算已选取字体数据库间的相似度S,
[0031][0032]公式(2)中,Ci表示第i次选取的两个预设文字轮廓之间的重合度,N
z
表示字体数据库中预设文字轮廓的数量。
[0033]进一步地,所述第二运算单元获取无法识别所表示文字的字体轮廓,并基于字体数据库间的相似度,重新选取字体数据库并逐个确定各所述文字轮廓与已重新选取的字体数据库的中存储的预设文字轮廓的重合度,并基于重合度再次判定各所述文字轮廓所表示的文字。
[0034]进一步地,所述第二运算单元基于字体数据库间的相似度,重新选取字体数据库,其中,
[0035]所述第二运算单元确定已判定各文字轮廓所表示的文字时调用的字体数据库,并根据相似度确定与已调用的所述字体数据库最相似的字体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于临床试验的数据处理系统,其特征在于,包括:数据存储模块,其包括若干字体数据库,用以储存对应字体类型的若干预设文字轮廓;数据采集模块,其包括一图像采集单元,以对手写试验记录文本进行拍摄获取图像;数据处理模块,其包括相互连接的图像分析单元、第一运算单元以及第二运算单元,所述图像分析单元、第一运算单元以及第二运算单元均与所述数据采集模块以及数据存储模块连接,所述图像分析单元用以获取所述图像采集单元拍摄的图像,从所述图像中提取预设行数的文字轮廓得到文字轮廓集,将所述文字轮廓集中的各所述文字轮廓与各字体数据库中的数据进行对比,以根据对比结果判定各所述文字轮廓所属的字体类型,并基于所述文字轮廓集中存在相同字体类型的文字轮廓的比例解析分析所述手写试验记录文本的字体相似状况;所述第一运算单元用以在所述图像分析单元解析获取第一字体相似状况下,提取所述图像中的全部文字轮廓,逐个将文字轮廓与随机选取的字体数据库中存储的预设文字轮廓进行对比并计算重合度,基于重合度判定各所述文字轮廓所表示的文字;所述第二运算单元用以在所述图像分析单元解析获取第二字体相似状况下,提取所述图像中全部文字轮廓,选取所述文字轮廓集中占比最高的字体类型所对应的字体数据库,并逐个确定各所述文字轮廓与已选取的字体数据库的中存储的预设文字轮廓的重合度,并基于重合度判定各所述文字轮廓所表示的文字。2.根据权利要求1所述的用于临床试验的数据处理系统,其特征在于,所述图像分析单元将所述文字轮廓集中的各所述文字轮廓与各字体数据库中的预设文字轮廓进行对比,以计算所述文字轮廓与预设文字轮廓的重合度C,并筛选出最大重合度Cm,将所述最大重合度Cm与预设的最大重合度对比阈值Cm0进行对比,并根据对比结果判定所述文字轮廓所属的字体类型,其中,所述图像分析单元确定计算所述最大重合度Cm时所选用的字体数据库,在第一重合度对比结果下,所述图像分析单元判定所述文字轮廓属于所述字体数据库对应的字体类型;在第二重合度对比结果下,所述图像分析单元判定所述文字轮廓不属于所述字体数据库对应的字体类型;其中,所述第一重合度对比结果为Cm≥Cm0,所述第二重合度对比结果为Cm<Cm0。3.根据权利要求2所述的用于临床试验的数据处理系统,其特征在于,所述图像分析单元按照公式(1)计算所述文字轮廓集中各字体类型的文字轮廓数量占比P,公式(1)中,n表示属于相同字体类型的文字轮廓的数量,N表示所述文字轮廓集中文字轮廓的数量。4.根据权利要求3所述的用于临床试验的数据处理系统,其特征在于,所述图像分析单元对已计算的各字体类型的文字轮廓数量占比进行筛选,以筛选出最大数量占比P
M
,将最大数量占比P
M
与预设的占比对比阈值P0进行对比,并根据对比结果解析判定所述手写试验记录文本的字体相似状况,其中,
若对比结果满足第一占比条件,所述图像分析单元判定所述手写试验记录文本为第一字体相似状况;若对比结果满足第二占比条件,所述图像分析单...

【专利技术属性】
技术研发人员:陈筱
申请(专利权)人:北京中兴正远科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1