【技术实现步骤摘要】
基于实体相似度的医疗数据修复方法、装置及计算机设备
[0001]本申请涉及大数据处理
,尤其涉及到一种基于实体相似度的医疗数据修复方法、装置及计算机设备。
技术介绍
[0002]随着医疗科技和计算机技术的发展,患者的就诊和病理数据信息呈指数增长。然而由于医疗设备传感器故障、网络传输等问题,随之产生了各种各样的低质病理数据。医生在低质的病理数据上对患者病情进行分析和确诊显然是不可行的,因此如何对这些低质数据进行清洗,保证医疗数据的质量,对于医生的诊疗尤为重要。为了应对医疗数据中存在的各种错误问题,一个直观而有效的方案就是准确地找到这些低质病理数据并进行数据修复,以提高病理数据的数据质量,进而保证医生诊疗的可靠性。
[0003]现有的子集修复方法主要是基于预设数据规范在医疗数据筛选出低质病理数据,并基于最小修复的规则找到个数最少的元组来识别为错误元组,通过将这些元组从原数据集中剔除,以实现对医疗数据的修复处理。
[0004]然而这种方法存在明显的缺陷。因为在实际的医疗数据中,最小修复规则通常并没有实际意义, ...
【技术保护点】
【技术特征摘要】
1.一种基于实体相似度的医疗数据修复方法,其特征在于,包括:根据关系完整性约束对医疗数据进行冲突检测,提取存在冲突关系的冲突元组以及不存在冲突关系的非冲突元组;计算各个所述冲突元组与所述非冲突元组之间的特征距离;依据所述特征距离确定待剔除的目标冲突元组,并在所述医疗数据中剔除所述目标冲突元组,以使剔除后的医疗数据对应的元组密度值最大。2.根据权利要求1所述的方法,其特征在于,所述根据关系完整性约束对医疗数据进行冲突检测,提取存在冲突关系的冲突元组以及不存在冲突关系的非冲突元组,包括:在所述医疗数据中随机提取存在相同第一属性的第一元组,并检测各个所述第一元组对应的第二属性是否相同,其中,所述第一属性和所述第二属性是根据预设函数依赖约束关系创建的;若是,则将所述第一元组确定为非冲突元组;若否,则将所述第一元组确定为冲突元组。3.根据权利要求1所述的方法,其特征在于,在所述计算各个所述冲突元组与所述非冲突元组之间的特征距离之前,还包括:为各个所述冲突元组创建非冲突元组集,所述非冲突元组集中包含所述医疗数据中所有与所述冲突元组不存在冲突关系的非冲突元组。4.根据权利要求3所述的方法,其特征在于,所述计算各个所述冲突元组与所述非冲突元组之间的特征距离,包括:按照第一预设距离计算公式计算各个所述冲突元组与所述非冲突元组集中任一非冲突元组的第一距离值;根据所述第一距离值确定所述冲突元组与所述非冲突元组之间的特征距离。5.根据权利要求4所述的方法,其特征在于,所述根据所述第一距离值确定所述冲突元组与所述非冲突元组之间的特征距离,具体包括:按照距离值由小到大的顺序在所述第一距离值中筛选出预设数量个第二距离值;计算所述第二距离值的累加和,将所述累加和确定为所述冲突元组与所述非冲突元组...
【专利技术属性】
技术研发人员:徐啸,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。