一种连接优先级算法与图数据库结合的患者身份匹配方法组成比例

技术编号：27195567 阅读：34 留言：0更新日期：2021-01-31 11:49

一种连接优先级算法与图数据库结合的患者身份匹配方法，其特征在于所述该方法包括如下步骤：一、构建相似度连接图：a、分组，采用主流的blocking算法。从患者属性列表中选取一个或几个作为blocking的属性，对不同数据源的各个患者实体进行分组，在组内进行下一步相似值的计算，能够减少后期的计算量，例如，1000个患者在3个不同的数据源各有一条患者信息记录：无blocking步骤，每条不同数据源间的记录都要进行相似度计算，本发明专利技术连接优先级的图结构处理方法能够减小计算量，提高匹配的准确率；同时，将图数据库作为底层的图结构存储，能够极大提高计算效率。大提高计算效率。大提高计算效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种连接优先级算法与图数据库结合的患者身份匹配方法

[0001]本专利技术设计一种身份匹配方法，尤其涉及一种连接优先级算法与图数据库结合的患者身份匹配方法，属于身份匹配领域。

技术介绍

[0002]在进行区域医疗信息整合时，经常面对的一个问题是一个患者在多家医疗机构中都有数据记录，但医疗机构之间的系统独立，数据处于隔离的状态，由于各系统都选择自己的患者主键以及患者个人信息大量缺失的现状。实现跨医疗机构的数据共享时，面对多个数据源的患者信息，很难准确找到对应患者，当前的主要方法是通过某种模型，根据患者的个人信息，计算相似度的值，与某一阈值作比较来判断是否属于同一实体信息。目前已经开源的实体匹配框架：dedupe，python的recordlinkage库等，都采用这种思路实现，该方法一次只能对两个数据源的患者信息进行比对，如果有2个以上数据源的患者信息需要匹配，必须按照两两比对的方式，对所有数据源的患者信息依次比对。例如，当有A、B、C三个数据源时，需要 AB，BC，AC分别比对。如果有100个数据源的患者信息需要匹配，则一共需要进行9900次的比对。该方法不够灵活且适用场景非常有限，在大数据量，多数据源的情况下缺乏扩展性。随着医疗信息技术的不断发展，大数据量，多数据源的患者身份匹配需求越来越强烈，当数据量激增，同时需要匹配多个数据源时，传统方法会面临无法解决的k-partite难题以及巨大的计算量。

技术实现思路

[0003]本专利技术提出基于连接优先级的图计算方法能很好的解决这一问题，且支持在多核或...

【技术保护点】

【技术特征摘要】
1.一种连接优先级算法与图数据库结合的患者身份匹配方法，其特征在于所述该方法包括如下步骤：一、构建相似度连接图：a)分组采用主流的blocking算法。从患者属性列表中选取一个或几个作为blocking的属性，对不同数据源的各个患者实体进行分组，在组内进行下一步相似值的计算，能够减少后期的计算量。1000个患者在3个不同的数据源各有一条患者信息记录：无blocking步骤，每条不同数据源间的记录都要进行相似度计算，为3
×
106次；加入blocking步骤，计算次数理论上最优情况下可以降到3
×
103次。b)计算相似值可以针对患者实体的不同属性(姓名，证件号码，家庭地址等)选择不同的相似值计算方法，常见的有：Jaro-Winkler距离，Jaccard相似度，Levenshtein距离；可以根据生产环境中，患者实体中不同属性的重要程度设定不同权值，参与计算；c)阈值匹配根据经验或者机器学习的方法确定一个合适的阈值，用于判断来自不同数据源的任意2条患者记录是否属于同一患者实体。该阈值的设定无须过于苛刻，这里只是初步筛选，后面的基于连接优先级的聚类方法还将对这里的结果做进一步的处理；二、图数据库存储：数据库建模各类图数据库系统具有相对统一的建模规范，这里以neo4j为例。数据源中的一条患者信息作为图数据库中的一个节点，患者属性作为节点的属性，数据来源作为节点的标签。例如，某条包含患者姓名、性别、手机号的信息来自系统A，则在图数据库中体现为标签为A的节点，该节点有姓名、性别、手机号三条属性信息。用节点之间的边表示两条数据的相似度，算法中产生的连接强度作为边的标签存储；图结构导入步骤1构建了一个节点相似度的无向图，将图结构导入图数据库中。步骤3的方法需要读写图数据库中存储的图结构。利用图数据库对图结构的支持能够提高步骤3的计算效率；三、基于连接优先级的聚类方法：步骤2中存储在图数据库中的无向图，记所有vertex(顶点)集合为V，所有edge(边)集合为ε。其中，每个顶点代表...

【专利技术属性】
技术研发人员：丁鹏飞，张检，顾林跃，孙斌，
申请(专利权)人：浙江好络维医疗技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人