一种通用系统自动化质疑临床异常数据的方法技术方案

技术编号:39835481 阅读:7 留言:0更新日期:2023-12-29 16:19
本发明专利技术公开了一种通用系统自动化质疑临床数据的方法,具体涉及电子数据处理领域,用于解决现有自动化质疑方法难以界定专业性临床数据是否异常的问题,包括以下步骤:提炼数据质量控制规则,并建立规则库,计算置信系数,根据置信系数与置信阈值的对比结果对数据进行分类,对异常数据进行定级,计算各科室热度指数,根据严重异常数据置信系数生成置信系数排序值,根据科室热度指数生成科室数据热度排序值,对置信系数排序值和科室热度指数进行加权求和生成人工介入优先级排序值,并根据人工介入优先级排序值安排人工检核次序,本发明专利技术能够判断临床数据异常与否,并对异常数据进行初步分类和定级,以合理安排人工检核的优先顺序

【技术实现步骤摘要】
一种通用系统自动化质疑临床异常数据的方法


[0001]本专利技术涉及电子数据处理领域,更具体地说,本专利技术时一种通用系统自动化质疑临床异常数据的方法


技术介绍

[0002]临床数据具有高度的专业化

试验性背景,获取准确可靠的临床数据,对医学研究

疾病治疗具有显著的价值,为了尽可能地降低数据获取过程中的错误率,合理的自动化质疑方法必不可少

[0003]自动化质疑方法能够对所录入临床数据进行提前检核,降低数据审核过程中的人力成本投入,但受限于临床数据的专业化

试验性背景,自动化质疑方法的质疑规则指标难以界定,可能会错误拦截部分真实数据,进而导致数据的人工审核阶段承受压力,甚至会影响医学研究项目的推进

[0004]为了解决上述缺陷,现提供一种技术方案


技术实现思路

[0005]本专利技术的目的是提供一种通用系统自动化质疑临床异常数据的方法,以解决
技术介绍
中的不足

[0006]为了实现上述目的,本专利技术提供如下技术方案:所述方法包括以下步骤;
[0007]提炼数据质量控制规则,梳理用于数据质量控制的指标,并建立规则库;
[0008]根据规则库执行检核以计算置信系数,根据置信系数与置信阈值的对比结果对数据进行分类,标记异常数据并反馈回数据提供方,根据反馈结果进行异常数据定级;
[0009]根据临床数据来源对定级为严重异常数据的条目进行分类,通过各科室数据处理状态信息计算各科室热度指数;
[0010]根据严重异常数据置信系数生成置信系数排序值,根据科室热度指数生成科室数据热度排序值,对置信系数排序值和科室热度指数进行加权求和生成人工介入优先级排序值,并根据人工介入优先级排序值安排人工检核次序

[0011]在一个优选的实施方式中,数据质量控制规则的各个维度;
[0012]数据质量控制指标包括数据完整度

数据准确度

数据重复度

数据合理度

数据时效度;
[0013]数据完整度通过循环冗余校验检验数据字段值的完整度;
[0014]数据准确度通过数据值与标准浮动范围的一致程度验证;
[0015]数据重复度通过检验数据唯一标识符进行验证;
[0016]数据合理度通过检验数据的格式类型进行验证;
[0017]数据时效度通过计算
jobs
数据处理任务所耗时间进行检验

[0018]在一个优选的实施方式中,置信系数的计算方法;
[0019]标定数据完整度为
Fv
,数据重复度为
Uq
,数据准确度为
Ac
,数据合理度为
Ra
,数据
时效度为
Ti
,置信系数
Co
的表达式为式中,
α
为的比例系数,且
α
大于0;
[0020]当数据接收端计算循环冗余校验值与数据发送端附加到数据中的循环冗余校验值不同,则数据完整度取值为0,当数据接收端计算循环冗余校验值与数据发送端附加到数据中的循环冗余校验值相同,则数据完整度取值为1;
[0021]当数据值处于标准浮动范围之内,则数据准确度取值为1,当数据值超出标准浮动范围,则数据准确度取值为0;
[0022]在数据库中执行
SQL
查询,选择列并使用
DISTINCT
关键字对数据进行遍历,若数据重复值的结果集只包含一行,则数据重复度取值为1,若结果集超过一行,则数据重复度取值为0;
[0023]数据格式检验通过,则数据合理度取值为1;数据格式检验不通过,则数据合理度取值为0;
[0024]对
jobs
数据处理任务所耗时间进行计时,包括数据提取

清洗

转换

合并

分析

存储全流程所用时间为数据时效度
Ti。
[0025]在一个优选的实施方式中,对数据进行分类和定级的逻辑;
[0026]当置信系数大于等于置信阈值时,数据质量质疑通过,标记所检核数据为正常数据;当置信系数小于置信阈值时,数据质量质疑不通过,标记所检核数据为异常数据;
[0027]将异常数据突出标记,并发送数据修改提示,待修改完成后再次计算数据置信系数,若数据质量质疑通过,则定级为普通异常数据,若数据质量质疑未通过,则定级为严重异常数据

[0028]在一个优选的实施方式中,科室热度指数的计算方法;
[0029]科室热度指数
He

β
×
Sh
×
Ro
,式中,
He
为科室热度指数,
Sh
为科室数据份额,
Ro
为科室数据变化率,
β

Sh
×
Ro
的比例系数,且
β
大于0;
[0030]科室数据份额
Sh
为各科室数据量占总数据量比例,其表达式为式中,
Dd
为科室数据量,
Nd
为总数据量;
[0031]科室数据变化率
Ro
为周期时间内科室数据量的变化率,其表达式为式中,
D(t)

t
时刻的科室数据量,
[t1,t2]为时间周期

[0032]在一个优选的实施方式中,人工介入优先级排序值的计算逻辑;
[0033]根据严重异常数据的置信系数生成置信系数排序值
c
,根据科室热度指数生成科室热度指数排序值
k
,将置信系数排序值
c
和科室热度指数排序值
k
通过公式建立人工介入优先级排序值
p
,其表达式为
p

γ1×
c+
γ2×
k
,式中,
γ1、
γ2分别为置信系数排序值
c
和科室热度指数排序值
k
的比例系数,且
γ1、
γ2均大于0,需要注意的是,
γ1、
γ2由本领域专业技术人员根据实际情况进行设定;
[0034]对
n
个严重异常数据进行排序,人工介入优先级排序编号为
N
,则
N

{1,2,3,

,n}
,人工介入优先级排序值越大,则编号越大

[0035]在上述技术方案中,本专利技术提供的技术效果和优点有:
[0036]通过提炼数据质本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种通用系统自动化质疑临床异常数据的方法,其特征在于:所述方法包括以下步骤;提炼数据质量控制规则,梳理用于数据质量控制的指标,并建立规则库;根据规则库执行检核以计算置信系数,根据置信系数与置信阈值的对比结果对数据进行分类,标记异常数据并反馈回数据提供方,根据反馈结果进行异常数据定级;根据临床数据来源对定级为严重异常数据的条目进行分类,通过各科室数据处理状态信息计算各科室热度指数;根据严重异常数据置信系数生成置信系数排序值,根据科室热度指数生成科室数据热度排序值,对置信系数排序值和科室热度指数进行加权求和生成人工介入优先级排序值,并根据人工介入优先级排序值安排人工检核次序
。2.
根据权利要求1所述的一种通用系统自动化质疑临床异常数据的方法,其特征在于:数据质量控制规则的各个维度;数据质量控制指标包括数据完整度

数据准确度

数据重复度

数据合理度

数据时效度;数据完整度通过循环冗余校验检验数据字段值的完整度;数据准确度通过数据值与标准浮动范围的一致程度验证;数据重复度通过检验数据唯一标识符进行验证;数据合理度通过检验数据的格式类型进行验证;数据时效度通过计算
jobs
数据处理任务所耗时间进行检验
。3.
根据权利要求1所述的一种通用系统自动化质疑临床异常数据的方法,其特征在于:置信系数的计算方法;标定数据完整度为
Fv
,数据重复度为
Uq
,数据准确度为
Ac
,数据合理度为
Ra
,数据时效度为
Ti
,置信系数
Co
的表达式为式中,
α
为的比例系数,且
α
大于0;当数据接收端计算循环冗余校验值与数据发送端附加到数据中的循环冗余校验值不同,则数据完整度取值为0,当数据接收端计算循环冗余校验值与数据发送端附加到数据中的循环冗余校验值相同,则数据完整度取值为1;当数据值处于标准浮动范围之内,则数据准确度取值为1,当数据值超出标准浮动范围,则数据准确度取值为0;在数据库中执行
SQL
查询,选择列并使用
DISTINCT
关键字对数据进行遍历,若数据重复值的结果集只包含一行,则数据重复度取值为1,若结果集超过一行,则数据重复度取值为0;数据格式检验通过,则数据合理度取值为1;数据格式检验不通过,则数据合理度取值为0;对
jobs
数据处理任务所耗时间进行计时,包括数据提取

清洗

转换

合并

分析

存储全流程所用时间为数据时效度
Ti。4....

【专利技术属性】
技术研发人员:张发宝李欣梅
申请(专利权)人:上海梅斯医药科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1