一种基于社团发现的医院检查检验名称对齐方法技术

技术编号:37538290 阅读:12 留言:0更新日期:2023-05-12 16:06
一种基于社团发现的医院检查检验名称对齐方法,将临床记录中病人的疾病诊断、手术操作和检查检验构成一种图结构,之后使用社团发现算法将该图结构聚类成不同的社团,社团内部的边连接紧密而不同社团之间的边连接稀疏,一个社团的内部均属于互相之间关联紧密的疾病诊断、手术操作或检查检验,从而在进行检查检验名称对齐的时候,仅从该检查检验所在的社团中寻找对齐对象,从而降低检查检验名称对齐的偏差。偏差。

【技术实现步骤摘要】
一种基于社团发现的医院检查检验名称对齐方法


[0001]本专利技术涉及医疗大数据
,具体涉及一种基于社团发现的医院检查检验名称对齐方法。

技术介绍

[0002][0003]检查检验是诊断疾病的基本依据,但不同医院对同一种检查检验有不同的称呼,如在A医院一项检查名为“椎动脉血管彩色多普勒超声”,在B医院则称之为“彩色多普勒超声(锥动脉)”。这两种检查名称虽然不一样,但实质检查内容、检查方式、检查部位和检查目的都是一样的。检查检验称呼的多样化给医疗数据的统计分析、医疗大数据平台的建设提出了挑战。传统的基于编辑距离的字符串对齐方法对于严谨的医疗卫生数据泛化性差,如在大量不同的检查检验名称中使用编辑距离对“椎动脉血管彩色多普勒超声”尝试对齐,所寻找到的对齐对象为“四肢动脉血管彩色多普勒超声”而非“彩色多普勒超声(锥动脉)”,这种对齐错误是因为“椎动脉血管彩色多普勒超声”与“四肢动脉血管彩色多普勒超声”的编辑距离更小,虽然两个名称仅差距两个字,但其检查部位是完全不一样的。

技术实现思路

[0004]本专利技术为了克服以上技术的不足,提供了一种降低检查检验名称对齐的偏差的方法。
[0005]本专利技术克服其技术问题所采用的技术方案是:
[0006]一种基于社团发现的医院检查检验名称对齐方法,包括如下步骤:
[0007]a)获取N家医院的电子病历数据集,该电子病历数据集中包含n份电子病历,每份电子病历包括病案首页中的疾病编码和手术编码以及病人该次入院的检查检验项目名称的明细,电子病历数据集中疾病编码的类别数量为d,手术编码的类别数量为p,检查检验项目名称的类别数量为τ;
[0008]b)为电子病历数据集中疾病编码的类别、手术编码的类别、检查检验项目名称的类别制作索引ids;
[0009]c)初始化邻接矩阵A,c)初始化邻接矩阵A,为实数空间,m为维度,邻接矩阵A中第i行第j列的值为A
ij
,i∈{1,2,...,m},j∈{1,2,...,m};
[0010]d)邻接矩阵A中前P%最大的值所对应的子集为利用子集构建邻接矩阵A


[0011]e)对邻接矩阵A

进行特征分解,得到m个特征值,将每个特征值的绝对值按从大到小的顺序排列,得到邻接矩阵A

的特征向量Λ,λ
i
为第i个特征值,i∈{1,...,m},第i个特征值λ
i
的特征向量为v(λ
i
),Λ所对应的特征向量为
计算特征向量Λ中特征值的二阶导数Δ2,其中二阶导数Δ2中最大的值所对应的下标索引为k,k∈{1,...,m

2};
[0012]f)计算得到一个m
×
(m

1)维的矩阵G,使用K

means算法对矩阵G在矩阵G的m的维度进行聚类,将矩阵G聚为k+2个社团,得到聚类结果C,C=(c1,c2,...,c
r
,...,c
k+2
),其中c
r
为第r个社团,r∈{1,...,k+2},第r个社团c
r
中包含的编码的类别、手术编码的类别、检查检验项目名称的类别表示为其中为第个编码的类别、手术编码的类别、检查检验项目名称的类别,
[0013]g)获取一个需要进行对齐的检查检验名称,找到该检查检验名称所在的社团从社团中找出该社团所包含的检查检验名称的类别,得到检查检验名称的集合Z,其中为第个检查检验名称,|z|为社团中所有检查检验名称的个数,计算当前需要对齐的检查检验名称与集合Z中其它检查检验名称的levenshtein距离,集合Z中与第个检查检验名称的levenshtein距离最小的元素为z
j
,将z
j
与进行对齐。
[0014]优选的,步骤a)中疾病编码和手术编码为使用国际疾病分类的ICD编码进行标准化后的疾病的标准类别和手术的标准类别。
[0015]进一步的,步骤b)中索引ids=(1,2,...,m),其中m=d+p+τ,ids[1:d]为索引ids中第1个元素到第d个元素,其表示疾病编码的类别的索引,ids[d+1:d+p]为索引ids中第d+1个元素到第d+p个元素,其表示手术编码的类别的索引,ids[d+p+1:d+p+τ]为索引ids中第d+p+1个元素到第d+p+τ个元素,其表示检查检验项目名称的类别的索引。
[0016]进一步的,步骤c)中通过公式计算得到邻接矩阵A中第i行第j列的值A
ij
,#ij为索引ids中第i个索引所对应的疾病编码类别、手术编码类别、和检查检验项目名称类别与第j个索引所对应的疾病编码类别、手术编码类别、和检查检验项目名称类别在同一份电子病历中共同出现的次数,#i为索引ids中第i个索引所对应的疾病编码类别、手术编码类别、和检查检验项目名称类别在电子病历数据集中出现的次数,#j为索引ids中第j个索引所对应的疾病编码类别、手术编码类别、和检查检验项目名称类别在电子病历数据集中出现的次数。
[0017]优选的,步骤d)中P取值为3。
[0018]进一步的,步骤d)中通过公式A
i

j
,计算得到邻接矩阵A

,其中A
i

j
为邻接矩阵A

中第第i个节点所对应的疾病编码类别、手术编码类别、和检查检验项目名称类别与第j个节点所对应的疾病编码类别、手术编码类别、和检查检验项目名称类别连接形成的无向边,A
j

i
为邻接矩阵A

中第第j个节点所对应的疾病编码类别、手术编码类别、和检查检验项目名称类别与第i个节点所对应的疾病编码类别、手术编码类别、和检查检验项目名称类别连接形成的无向边。
[0019]进一步的,步骤f)中通过公式计算得到矩阵G。本专利技术的有益效果是:将临床记录中病人的疾病诊断、手术操作和检查检验构成一种图结构,之后使用社团发现算法将该图结构聚类成不同的社团,社团内部的边连接紧密而不同社团之间的边连接稀疏,一个社团的内部均属于互相之间关联紧密的疾病诊断、手术操作或检查检验,从而在进行检查检验名称对齐的时候,仅从该检查检验所在的社团中寻找对齐对象,从而降低检查检验名称对齐的偏差。
具体实施方式
[0020]下面对本专利技术做进一步说明。
[0021]一种基于社团发现的医院检查检验名称对齐方法,包括如下步骤:
[0022]a)获取N家医院的电子病历数据集,该电子病历数据集中包含n份电子病历,每份电子病历包括病案首页中的疾病编码和手术编码以及病人该次入院的检查检验项目名称的明细,疾病编码表示病人该次入院所治疗的疾病,手术编码表示病人该次入院所行的手术,电子病历数据集中疾病编码的类别数量为d,手术编码的类别数量为p,检查本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于社团发现的医院检查检验名称对齐方法,其特征在于,包括如下步骤:a)获取N家医院的电子病历数据集,该电子病历数据集中包含n份电子病历,每份电子病历包括病案首页中的疾病编码和手术编码以及病人该次入院的检查检验项目名称的明细,电子病历数据集中疾病编码的类别数量为d,手术编码的类别数量为p,检查检验项目名称的类别数量为τ;b)为电子病历数据集中疾病编码的类别、手术编码的类别、检查检验项目名称的类别制作索引ids;c)初始化邻接矩阵A,为实数空间,m为维度,邻接矩阵A中第i行第j列的值为A
ij
,i∈{1,2,...,m},j∈{1,2,...,m};d)邻接矩阵A中前P%最大的值所对应的子集为利用子集构建邻接矩阵A

,e)对邻接矩阵A

进行特征分解,得到m个特征值,将每个特征值的绝对值按从大到小的顺序排列,得到邻接矩阵A

的特征向量Λ,λ
i
为第i个特征值,i∈{1,...,m},第i个特征值λ
i
的特征向量为v(λ
i
),Λ所对应的特征向量为计算特征向量Λ中特征值的二阶导数Δ2,其中二阶导数Δ2中最大的值所对应的下标索引为k,k∈{1,...,m

2};f)计算得到一个m
×
(m

1)维的矩阵G,使用K

means算法对矩阵G在矩阵G的m的维度进行聚类,将矩阵G聚为k+2个社团,得到聚类结果C,C=(c1,c2,...,c
r
,...,c
k+2
),其中c
r
为第r个社团,r∈{1,...,k+2},第r个社团c
r
中包含的编码的类别、手术编码的类别、检查检验项目名称的类别表示为其中为第个编码的类别、手术编码的类别、检查检验项目名称的类别,g)获取一个需要进行对齐的检查检验名称,找到该检查检验名称所在的社团从社团中找出该社团所包含的检查检验名称的类别,得到检查检验名称的集合Z,其中为第个检查检验名称,|z|为社团中所有检查检验名称的个数,计算当前需要对齐的检查检验名称与集合Z中其它检查检验名称的levenshtein距离,集合Z中与第个检查检验名称的levenshtein距离最小的元素为z
j
,将z
j
与进行对...

【专利技术属性】
技术研发人员:张述睿吴军高希余刘旭
申请(专利权)人:众阳健康科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1