实现数据核查计划导入自动生成逻辑核查的方法和系统技术方案

技术编号:36465938 阅读:18 留言:0更新日期:2023-01-25 23:06
本发明专利技术公开了一种实现数据核查计划导入自动生成逻辑核查的方法和系统,可以使系统直接理解数据核查计划中的内容,从而减少实现数据核查计划时的工作量。其技术方案为:步骤1:读取数据核查计划文件并解析其中的表格;步骤2:根据名称相似度匹配表格列头;步骤3:根据匹配到的表格列头,解析数据核查计划文件中的每一行,形成结构化信息;步骤4:解析逻辑文本中的病例报告表字段;步骤5:解析逻辑文本中的计算描述;步骤6:解析目标位置的对象,通过对目标数据字段位置和计算中所需数据字段位置的分析,得出数据位置是否匹配结果;步骤7:确定置信度并基于置信度生成逻辑核查。置信度并基于置信度生成逻辑核查。置信度并基于置信度生成逻辑核查。

【技术实现步骤摘要】
实现数据核查计划导入自动生成逻辑核查的方法和系统


[0001]本专利技术涉及临床医疗软件的数据质量保障的领域,具体涉及一种实现数据核查计划(Date Validation Plan,DVP)导入自动生成逻辑核查的方法和系统。

技术介绍

[0002]在临床实验中,电子数据采集系统EDC上,数据库开发员DBD需要根据数据质量经理DM所给出的数据核查计划DVP实现数据校验的规则。数据核查计划DVP通常使用表格化的文本来描述。EDC系统中实现数据校验的方式通常是写代码。现有情况下,整个DVP到EDC中数据校验的实现是由DBD手动完成。
[0003]上述的这种DBD手动处理的现有方法,大大提高了DBD在实现数据核查计划时的工作量,使得处理成本居高不下。

技术实现思路

[0004]以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
[0005]本专利技术的目的在于解决上述问题,提供了一种实现数据核查计划导入自动生成逻辑核查的方法和系统,可以使系统直接理解数据核查计划中的内容,从而减少DBD在实现数据核查计划时的工作量。
[0006]本专利技术的技术方案为:本专利技术揭示了一种实现数据核查计划导入自动生成逻辑核查的方法,方法包括:
[0007]步骤1:读取数据核查计划文件并解析其中的表格;
[0008]步骤2:根据名称相似度匹配表格列头;
[0009]步骤3:根据匹配到的表格列头,解析数据核查计划文件中的每一行,形成结构化信息;
[0010]步骤4:解析逻辑文本中的病例报告表字段;
[0011]步骤5:解析逻辑文本中的计算描述;
[0012]步骤6:解析目标位置的对象,通过对目标数据字段位置和计算中所需数据字段位置的分析,得出数据位置是否匹配结果;
[0013]步骤7:确定置信度并基于置信度生成逻辑核查。
[0014]根据本专利技术的实现数据核查计划导入自动生成逻辑核查的方法的一实施例,步骤2进一步包括:
[0015]通过对从数据核查计划文件中解析出的表格列头和内置的系统可识别的表格列头进行名字匹配,使用字符串编辑距离作为近似度评估,匹配最为相似的列头。
[0016]根据本专利技术的实现数据核查计划导入自动生成逻辑核查的方法的一实施例,步骤
4进一步包括:
[0017]遍历病例报告表中所有的数据字段,首先以名称作为数据字段的表示,匹配逻辑文本中的数据字段;其次,对逻辑文本模糊匹配数据字段的表示;最后,将匹配到的所有子串标记为对应的字段。
[0018]根据本专利技术的实现数据核查计划导入自动生成逻辑核查的方法的一实施例,步骤5进一步包括:
[0019]对逻辑文本进行解析,使用上下文无关文法的定义,将逻辑文本解析为一个多叉树构成的森林的结构;再将森林中满足文法定义结构的树保留,将不满足文法定义结构的树记为废弃;最后,收集满足文法定义结构的树结构,进行深度优先遍历,将树结构转换为运算表达式。
[0020]根据本专利技术的实现数据核查计划导入自动生成逻辑核查的方法的一实施例,步骤6进一步包括:
[0021]在位置分析的处理中,判定目标位置对象和逻辑文本中出现的对象的计算关系是否满足,其中判定规则是:是否每个目标对象对应到的计算所有对象都匹配病例报告表中的单数的数据点。
[0022]根据本专利技术的实现数据核查计划导入自动生成逻辑核查的方法的一实施例,步骤7进一步包括:
[0023]当经步骤6判定出目标位置和计算字段位置满足关系后,定义置信度为废弃树规模比总树规模的数值,当置信度大于设定的阈值时,组合转换后的表达式,数据字段为声明式逻辑规则或代码,其中逻辑规则由逻辑类型、表达式、数据点描述构成,逻辑类型在数据核查计划的表单中有确定,将表达式和数据点描述组合后生成逻辑核查。
[0024]本专利技术还揭示了一种实现数据核查计划导入自动生成逻辑核查的系统,系统包括:
[0025]读取模块,用于读取数据核查计划文件并解析其中的表格;
[0026]匹配模块,用于根据名称相似度匹配表格列头;
[0027]结构化模块,用于根据匹配到的表格列头,解析数据核查计划文件中的每一行,形成结构化信息;
[0028]字段解析模块,用于解析逻辑文本中的病例报告表字段;
[0029]计算描述解析模块,用于解析逻辑文本中的计算描述;
[0030]位置关系解析模块,用于解析目标位置的对象,通过对目标数据字段位置和计算中所需数据字段位置的分析,得出数据位置是否匹配结果;
[0031]逻辑核查生成模块,用于确定置信度并基于置信度生成逻辑核查。
[0032]根据本专利技术的实现数据核查计划导入自动生成逻辑核查的系统的一实施例,匹配模块进一步配置为:
[0033]通过对从数据核查计划文件中解析出的表格列头和内置的系统可识别的表格列头进行名字匹配,使用字符串编辑距离作为近似度评估,匹配最为相似的列头。
[0034]根据本专利技术的实现数据核查计划导入自动生成逻辑核查的系统的一实施例,字段解析模块进一步配置为:
[0035]遍历病例报告表中所有的数据字段,首先以名称作为数据字段的表示,匹配逻辑
文本中的数据字段;其次,对逻辑文本模糊匹配数据字段的表示;最后,将匹配到的所有子串标记为对应的字段。
[0036]根据本专利技术的实现数据核查计划导入自动生成逻辑核查的系统的一实施例,计算描述解析模块进一步配置为:
[0037]对逻辑文本进行解析,使用上下文无关文法的定义,将逻辑文本解析为一个多叉树构成的森林的结构;再将森林中满足文法定义结构的树保留,将不满足文法定义结构的树记为废弃;最后,收集满足文法定义结构的树结构,进行深度优先遍历,将树结构转换为运算表达式。
[0038]根据本专利技术的实现数据核查计划导入自动生成逻辑核查的系统的一实施例,位置关系解析模块进一步配置为:
[0039]在位置分析的处理中,判定目标位置对象和逻辑文本中出现的对象的计算关系是否满足,其中判定规则是:是否每个目标对象对应到的计算所有对象都匹配病例报告表中的单数的数据点。
[0040]根据本专利技术的实现数据核查计划导入自动生成逻辑核查的系统的一实施例,逻辑核查生成模块进一步配置为:
[0041]当经位置关系解析模块判定出目标位置和计算字段位置满足关系后,定义置信度为废弃树规模比总树规模的数值,当置信度大于设定的阈值时,组合转换后的表达式,数据字段为声明式逻辑规则或代码,其中逻辑规则由逻辑类型、表达式、数据点描述构成,逻辑类型在数据核查计划的表单中有确定,将表达式和数据点描述组合后生成逻辑核查。
[0042]本专利技术还揭示了一种计算机可读存储介质,其存储有可供本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实现数据核查计划导入自动生成逻辑核查的方法,其特征在于,方法包括:步骤1:读取数据核查计划文件并解析其中的表格;步骤2:根据名称相似度匹配表格列头;步骤3:根据匹配到的表格列头,解析数据核查计划文件中的每一行,形成结构化信息;步骤4:解析逻辑文本中的病例报告表字段;步骤5:解析逻辑文本中的计算描述;步骤6:解析目标位置的对象,通过对目标数据字段位置和计算中所需数据字段位置的分析,得出数据位置是否匹配结果;步骤7:确定置信度并基于置信度生成逻辑核查。2.根据权利要求1所述的实现数据核查计划导入自动生成逻辑核查的方法,其特征在于,步骤2进一步包括:通过对从数据核查计划文件中解析出的表格列头和内置的系统可识别的表格列头进行名字匹配,使用字符串编辑距离作为近似度评估,匹配最为相似的列头。3.根据权利要求1所述的实现数据核查计划导入自动生成逻辑核查的方法,其特征在于,步骤4进一步包括:遍历病例报告表中所有的数据字段,首先以名称作为数据字段的表示,匹配逻辑文本中的数据字段;其次,对逻辑文本模糊匹配数据字段的表示;最后,将匹配到的所有子串标记为对应的字段。4.根据权利要求1所述的实现数据核查计划导入自动生成逻辑核查的方法,其特征在于,步骤5进一步包括:对逻辑文本进行解析,使用上下文无关文法的定义,将逻辑文本解析为一个多叉树构成的森林的结构;再将森林中满足文法定义结构的树保留,将不满足文法定义结构的树记为废弃;最后,收集满足文法定义结构的树结构,进行深度优先遍历,将树结构转换为运算表达式。5.根据权利要求1所述的实现数据核查计划导入自动生成逻辑核查的方法,其特征在于,步骤6进一步包括:在位置分析的处理中,判定目标位置对象和逻辑文本中出现的对象的计算关系是否满足,其中判定规则是:是否每个目标对象对应到的计算所有对象都匹配病例报告表中的单数的数据点。6.根据权利要求1所述的实现数据核查计划导入自动生成逻辑核查的方法,其特征在于,步骤7进一步包括:当经步骤6判定出目标位置和计算字段位置满足关系后,定义置信度为废弃树规模比总树规模的数值,当置信度大于设定的阈值时,组合转换后的表达式,数据字段为声明式逻辑规则或代码,其中逻辑规则由逻辑类型、表达式、数据点描述构成,逻辑类型在数据核查计划的表单中有确定,将表达式和数据点描述组合后生成逻辑核查。7.一种实现数据核查计划导入自动生成逻辑核查的系统,其特征在于,系统包括:读取模块,用于读取数据核查计划文件并解析其中的表格;匹配模块,用于根据名称相似度匹配表格列头;结构化模块,用于根据匹配到的表格列头,解析数据核查计划文件中的每一行,形成结
...

【专利技术属性】
技术研发人员:武翔宇徐鹏程黄祖柳杨思源
申请(专利权)人:上海耀乘健康科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1