一种连接优先级算法与图数据库结合的患者身份匹配方法组成比例

技术编号:27195567 阅读:34 留言:0更新日期:2021-01-31 11:49
一种连接优先级算法与图数据库结合的患者身份匹配方法,其特征在于所述该方法包括如下步骤:一、构建相似度连接图:a、分组,采用主流的blocking算法。从患者属性列表中选取一个或几个作为blocking的属性,对不同数据源的各个患者实体进行分组,在组内进行下一步相似值的计算,能够减少后期的计算量,例如,1000个患者在3个不同的数据源各有一条患者信息记录:无blocking步骤,每条不同数据源间的记录都要进行相似度计算,本发明专利技术连接优先级的图结构处理方法能够减小计算量,提高匹配的准确率;同时,将图数据库作为底层的图结构存储,能够极大提高计算效率。大提高计算效率。大提高计算效率。

【技术实现步骤摘要】
一种连接优先级算法与图数据库结合的患者身份匹配方法


[0001]本专利技术设计一种身份匹配方法,尤其涉及一种连接优先级算法与图数据库结合的患者身份匹配方法,属于身份匹配领域。

技术介绍

[0002]在进行区域医疗信息整合时,经常面对的一个问题是一个患者在多家医疗机构中都有数据记录,但医疗机构之间的系统独立,数据处于隔离的状态,由于各系统都选择自己的患者主键以及患者个人信息大量缺失的现状。实现跨医疗机构的数据共享时,面对多个数据源的患者信息,很难准确找到对应患者,当前的主要方法是通过某种模型,根据患者的个人信息,计算相似度的值,与某一阈值作比较来判断是否属于同一实体信息。目前已经开源的实体匹配框架:dedupe,python的recordlinkage库等,都采用这种思路实现,该方法一次只能对两个数据源的患者信息进行比对,如果有2个以上数据源的患者信息需要匹配,必须按照两两比对的方式,对所有数据源的患者信息依次比对。例如,当有A、B、C三个数据源时,需要 AB,BC,AC分别比对。如果有100个数据源的患者信息需要匹配,则一共需要进行9900次的比对。该方法不够灵活且适用场景非常有限,在大数据量,多数据源的情况下缺乏扩展性。随着医疗信息技术的不断发展,大数据量,多数据源的患者身份匹配需求越来越强烈,当数据量激增,同时需要匹配多个数据源时,传统方法会面临无法解决的k-partite难题以及巨大的计算量。

技术实现思路

[0003]本专利技术提出基于连接优先级的图计算方法能很好的解决这一问题,且支持在多核或分布式场景下的并行计算,在控制计算复杂度同时达到比较好的匹配效果,同时,作为一种存储图结构的数据库,图数据库在查询数据节点关系时拥有独特的性能优势,将患者作为节点,患者信息之间的相似性及是否属于同一患者作为节点关系,能够提高图计算的效率,快速得到匹配结果,本专利技术具体实施方式为:
[0004]一种连接优先级算法与图数据库结合的患者身份匹配方法,其特征在于所述该方法包括如下步骤:一、构建相似度连接图:
[0005]a)分组
[0006]采用主流的blocking算法。从患者属性列表中选取一个或几个作为blocking的属性,对不同数据源的各个患者实体进行分组,在组内进行下一步相似值的计算,能够减少后期的计算量。1000个患者在3个不同的数据源各有一条患者信息记录:无blocking步骤,每条不同数据源间的记录都要进行相似度计算,为3
×
106次;加入 blocking步骤,计算次数理论上最优情况下可以降到3
×
103次。
[0007]b)计算相似值
[0008]可以针对患者实体的不同属性(姓名,证件号码,家庭地址等)选择不同的相似值计算方法,常见的有: Jaro-Winkler距离,Jaccard相似度,Levenshtein距离;
[0009]可以根据生产环境中,患者实体中不同属性的重要程度设定不同权值,参与计算;
[0010]c)阈值匹配
[0011]根据经验或者机器学习的方法确定一个合适的阈值,用于判断来自不同数据源的任意2条患者记录是否属于同一患者实体。该阈值的设定无须过于苛刻,这里只是初步筛选,后面的基于连接优先级的聚类方法还将对这里的结果做进一步的处理;
[0012]二、图数据库存储:
[0013]a.数据库建模
[0014]各类图数据库系统具有相对统一的建模规范,这里以neo4j为例。数据源中的一条患者信息作为图数据库中的一个节点,患者属性作为节点的属性,数据来源作为节点的标签。例如,某条包含患者姓名、性别、手机号的信息来自系统A,则在图数据库中体现为标签为A的节点,该节点有姓名、性别、手机号三条属性信息。用节点之间的边表示两条数据的相似度,算法中产生的连接强度作为边的标签存储;
[0015]b.图结构导入
[0016]步骤1构建了一个节点相似度的无向图,将图结构导入图数据库中。步骤3的方法需要读写图数据库中存储的图结构。利用图数据库对图结构的支持能够提高步骤3的计算效率;
[0017]三、基于连接优先级的聚类方法:
[0018]步骤2中存储在图数据库中的无向图,记所有vertex(顶点)集合为V,所有edge(边)集合为ε。其中,每个顶点代表一个患者,每条边代表连接的两个顶点之间按照一定计算规则得到的相似度值。通过来自不同数据源之间顶点的相似程度(边两端连接顶点的所属来源即图数据库中的标签和边的值)计算,将边打上强连接ε
Strong
,常连接ε
Normal
和弱连接ε
Weak
的标签,存入图数据库;
[0019]计算ε
Strong
顶点的连通性,得到完全连接聚类(Complete Cluster),该聚类必须满足每个数据源有且仅有一条患者信息。将完全连接聚类保存在结果的图结构中,并将完全连接聚类中的边和顶点从当前图结构中移出,得到:
[0020]V
′←
V-V
Strong
[0021]ε
′←

Strong-ε
Complete
)∪ε
Normal
[0022]计算剩余图V

,ε

的连通性,得到n个连通分量,对每个连通分量进行如下操作:
[0023]判断该连通分量的每个顶点是否来自不同的数据源。如果是,则将该连通分量保存在最终的结果中。
[0024]如果否,则对该连通分量中的各条边,根据一定的计算方式得到连接优先级,按照优先级的高低进行排序,这里参与判断的参数有edge代表的两条信息的相似度值,连接的强度,出入度情况。依照排序结果对Vertex进行“合并”和“修剪”操作。基本原则是合并后的cluster中不能存在来自同一数据源的患者信息,如果不能满足,则取消本次合并。
[0025]作为优选:所述基于连接优先级的聚类方法中一定的计算方式为:优先级值=相似度值*相似度值权重+连接强度值*连接强度值权重+度数*度数值权重,所述该公式为:P=S*Ws+L*Wl+D*Wd,其中P:优先级值、S:相似度值、Ws:相似度权重、L:连接强度、Wl:连接强度权重、D:度数、Dl:度数权重。
[0026]本专利技术提出一种连接优先级的图结构处理方法,基于用途日益广泛的图数据库作
为存储,与传统方法相比,连接优先级的图结构处理方法能够减小计算量,提高匹配的准确率;同时,将图数据库作为底层的图结构存储,能够极大提高计算效率。
附图说明
[0027]图1为本专利技术流程示意图。
[0028]图2为本专利技术算法流程图。
[0029]图3为本专利技术实施流程图。
具体实施方式:
[0030]下面将结合附图所示对本专利技术做详细的介绍:图1-2所示,一种连接优先级算法与图数据库结合的患者身份匹配方法,所述该方法包括如下本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种连接优先级算法与图数据库结合的患者身份匹配方法,其特征在于所述该方法包括如下步骤:一、构建相似度连接图:a)分组采用主流的blocking算法。从患者属性列表中选取一个或几个作为blocking的属性,对不同数据源的各个患者实体进行分组,在组内进行下一步相似值的计算,能够减少后期的计算量。1000个患者在3个不同的数据源各有一条患者信息记录:无blocking步骤,每条不同数据源间的记录都要进行相似度计算,为3
×
106次;加入blocking步骤,计算次数理论上最优情况下可以降到3
×
103次。b)计算相似值可以针对患者实体的不同属性(姓名,证件号码,家庭地址等)选择不同的相似值计算方法,常见的有:Jaro-Winkler距离,Jaccard相似度,Levenshtein距离;可以根据生产环境中,患者实体中不同属性的重要程度设定不同权值,参与计算;c)阈值匹配根据经验或者机器学习的方法确定一个合适的阈值,用于判断来自不同数据源的任意2条患者记录是否属于同一患者实体。该阈值的设定无须过于苛刻,这里只是初步筛选,后面的基于连接优先级的聚类方法还将对这里的结果做进一步的处理;二、图数据库存储:数据库建模各类图数据库系统具有相对统一的建模规范,这里以neo4j为例。数据源中的一条患者信息作为图数据库中的一个节点,患者属性作为节点的属性,数据来源作为节点的标签。例如,某条包含患者姓名、性别、手机号的信息来自系统A,则在图数据库中体现为标签为A的节点,该节点有姓名、性别、手机号三条属性信息。用节点之间的边表示两条数据的相似度,算法中产生的连接强度作为边的标签存储;图结构导入步骤1构建了一个节点相似度的无向图,将图结构导入图数据库中。步骤3的方法需要读写图数据库中存储的图结构。利用图数据库对图结构的支持能够提高步骤3的计算效率;三、基于连接优先级的聚类方法:步骤2中存储在图数据库中的无向图,记所有vertex(顶点)集合为V,所有edge(边)集合为ε。其中,每个顶点代表...

【专利技术属性】
技术研发人员:丁鹏飞张检顾林跃孙斌
申请(专利权)人:浙江好络维医疗技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1