【技术实现步骤摘要】
基于医疗数据的特征提取方法及装置、设备和介质
本公开涉及数据挖掘
,具体而言,涉及一种基于医疗数据的特征提取方法、基于医疗数据的特征提取装置、电子设备以及计算机可读存储介质。
技术介绍
在大数据分析与挖掘
中,获取到的海量数据不可避免的存在一些数据问题,例如数据缺失、数据错误、数据不规范等。而对问题数据进行标准化是一切数据研究的前提。在医疗场景下,数据标准化主要包括五大常见的分类:检验归一、检查归一、药品归一、手术诊断名称归一、诊断名称归一等。现有的标准化方法中,通常是将待标准化的检验项目与标准表的中项目进行对比,而对比过程中最重要的是如何确定相似度特征的提取。目前,对于文本字段通常采用先分词再判断的方法,然而,这种方法强依赖于分词准确性,一旦切词出现错误,将对相似度计算产生非常大的影响。对于检验项目中的数值、单位等字段,仅判断其与标准表中的项目是否相同,该判断方法易导致提取出的信息不全,从而影响标准化结果。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构 ...
【技术保护点】
1.一种基于医疗数据的特征提取方法,其特征在于,包括:/n获取待处理数据;其中,所述待处理数据包括医疗数据;/n基于所述医疗数据确定多个待处理字段,并确定各所述待处理字段的字段类型;/n根据所述字段类型确定与所述待处理字段对应的参考字段,并基于所述字段类型确定所述待处理字段与所述参考字段之间的相似度;/n将确定出的所述相似度作为所述医疗数据对应的特征数据。/n
【技术特征摘要】
1.一种基于医疗数据的特征提取方法,其特征在于,包括:
获取待处理数据;其中,所述待处理数据包括医疗数据;
基于所述医疗数据确定多个待处理字段,并确定各所述待处理字段的字段类型;
根据所述字段类型确定与所述待处理字段对应的参考字段,并基于所述字段类型确定所述待处理字段与所述参考字段之间的相似度;
将确定出的所述相似度作为所述医疗数据对应的特征数据。
2.根据权利要求1所述的基于医疗数据的特征提取方法,其特征在于,所述根据所述字段类型确定与所述待处理字段对应的参考字段,包括:
获取与所述医疗数据对应的参考数据集;
根据所述字段类型从所述参考数据集中确定与所述待处理字段对应的所述参考字段。
3.根据权利要求2所述的基于医疗数据的特征提取方法,其特征在于,所述字段类型包括文本类型,所述基于所述字段类型确定所述待处理字段与所述参考字段之间的相似度,包括:
将所述字段类型为所述文本类型的待处理字段作为文本类型字段;
从所述参考数据集中确定与所述文本类型字段对应的参考文本字段;
计算所述文本类型字段与所述参考文本字段之间的相似度作为第一相似度。
4.根据权利要求3所述的基于医疗数据的特征提取方法,其特征在于,所述基于所述字段类型确定所述待处理字段与所述参考字段之间的相似度,还包括:
对所述文本类型字段进行切词处理以生成目标切词集合;
对所述参考文本字段进行切词处理以生成参考切词集合;
计算所述参考切词集合与所述目标切词集合之间的文本相似度作为第二相似度。
5.根据权利要求3所述的基于医疗数据的特征提取方法,其特征在于,所述基于所述字段类型确定所述待处理字段与所述参考字段之间的相似度,还包括:
对所述文本类型字段进行音节转换处理以得到目标音节字段;
对所述参考文本字段进行音节转换处理以得到参考音节字段;
计算所述目标音节字段与所述参考音节字段之间的音节相似度作为第三相似度。
6.根据权利要求2所述的基于医疗数据的特征提取方法,其特征在于,所述字段类型包括单位类型,所述基于所述字段类型确定所述待处理字段与所述参考字段之间的相似度,...
【专利技术属性】
技术研发人员:胥世承,彭滔,朱彤,艾杰,
申请(专利权)人:天津开心生活科技有限公司,天津新开心生活科技有限公司,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。