【技术实现步骤摘要】
一种基于社团发现的医院检查检验名称对齐方法
[0001]本专利技术涉及医疗大数据
,具体涉及一种基于社团发现的医院检查检验名称对齐方法。
技术介绍
[0002][0003]检查检验是诊断疾病的基本依据,但不同医院对同一种检查检验有不同的称呼,如在A医院一项检查名为“椎动脉血管彩色多普勒超声”,在B医院则称之为“彩色多普勒超声(锥动脉)”。这两种检查名称虽然不一样,但实质检查内容、检查方式、检查部位和检查目的都是一样的。检查检验称呼的多样化给医疗数据的统计分析、医疗大数据平台的建设提出了挑战。传统的基于编辑距离的字符串对齐方法对于严谨的医疗卫生数据泛化性差,如在大量不同的检查检验名称中使用编辑距离对“椎动脉血管彩色多普勒超声”尝试对齐,所寻找到的对齐对象为“四肢动脉血管彩色多普勒超声”而非“彩色多普勒超声(锥动脉)”,这种对齐错误是因为“椎动脉血管彩色多普勒超声”与“四肢动脉血管彩色多普勒超声”的编辑距离更小,虽然两个名称仅差距两个字,但其检查部位是完全不一样的。
技术实现思路
[0004]本专利技术为了克服以上技术的不足,提供了一种降低检查检验名称对齐的偏差的方法。
[0005]本专利技术克服其技术问题所采用的技术方案是:
[0006]一种基于社团发现的医院检查检验名称对齐方法,包括如下步骤:
[0007]a)获取N家医院的电子病历数据集,该电子病历数据集中包含n份电子病历,每份电子病历包括病案首页中的疾病编码和手术编码以及病人该次入院的检查检验项目名称的明细,电子病历数 ...
【技术保护点】
【技术特征摘要】
1.一种基于社团发现的医院检查检验名称对齐方法,其特征在于,包括如下步骤:a)获取N家医院的电子病历数据集,该电子病历数据集中包含n份电子病历,每份电子病历包括病案首页中的疾病编码和手术编码以及病人该次入院的检查检验项目名称的明细,电子病历数据集中疾病编码的类别数量为d,手术编码的类别数量为p,检查检验项目名称的类别数量为τ;b)为电子病历数据集中疾病编码的类别、手术编码的类别、检查检验项目名称的类别制作索引ids;c)初始化邻接矩阵A,为实数空间,m为维度,邻接矩阵A中第i行第j列的值为A
ij
,i∈{1,2,...,m},j∈{1,2,...,m};d)邻接矩阵A中前P%最大的值所对应的子集为利用子集构建邻接矩阵A
′
,e)对邻接矩阵A
′
进行特征分解,得到m个特征值,将每个特征值的绝对值按从大到小的顺序排列,得到邻接矩阵A
′
的特征向量Λ,λ
i
为第i个特征值,i∈{1,...,m},第i个特征值λ
i
的特征向量为v(λ
i
),Λ所对应的特征向量为计算特征向量Λ中特征值的二阶导数Δ2,其中二阶导数Δ2中最大的值所对应的下标索引为k,k∈{1,...,m
‑
2};f)计算得到一个m
×
(m
‑
1)维的矩阵G,使用K
‑
means算法对矩阵G在矩阵G的m的维度进行聚类,将矩阵G聚为k+2个社团,得到聚类结果C,C=(c1,c2,...,c
r
,...,c
k+2
),其中c
r
为第r个社团,r∈{1,...,k+2},第r个社团c
r
中包含的编码的类别、手术编码的类别、检查检验项目名称的类别表示为其中为第个编码的类别、手术编码的类别、检查检验项目名称的类别,g)获取一个需要进行对齐的检查检验名称,找到该检查检验名称所在的社团从社团中找出该社团所包含的检查检验名称的类别,得到检查检验名称的集合Z,其中为第个检查检验名称,|z|为社团中所有检查检验名称的个数,计算当前需要对齐的检查检验名称与集合Z中其它检查检验名称的levenshtein距离,集合Z中与第个检查检验名称的levenshtein距离最小的元素为z
j
,将z
j
与进行对...
【专利技术属性】
技术研发人员:张述睿,吴军,高希余,刘旭,
申请(专利权)人:众阳健康科技集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。