一种诊断编码和诊断名称匹配的方法和系统技术方案

技术编号:21118117 阅读:69 留言:0更新日期:2019-05-16 09:43
本发明专利技术公开了一种诊断编码和诊断名称匹配的方法和系统,使诊断编码和诊断名称的数据治理自动化,提高治理的效率,避免人工处理因个人经验造成的不确定性,提高了数据分析利用的价值。其技术方案为:获取医院的诊断记录,包括医院编码、诊断编码以及诊断名称;将医院编码、诊断编码以及诊断名称与预置的五元组匹配表相匹配,其中五元组匹配表按照预设规则生成,包括医院编码、原始诊断编码、原始诊断名称、标准诊断编码、标准诊断名称;若医院编码、诊断编码以及诊断名称分别等于五元组匹配表中的医院编码、原始诊断编码、原始诊断名称,则将诊断编码和诊断名称分别替换为标准诊断编码和标准诊断名称。

A Method and System for Diagnostic Coding and Diagnostic Name Matching

【技术实现步骤摘要】
一种诊断编码和诊断名称匹配的方法和系统
本专利技术涉及医疗大数据处理领域,具体涉及一种将诊断编码和诊断名称进行匹配的方法和系统。
技术介绍
随着医疗健康大数据中心或医院临床数据中心的建设,原始的电子病历系统存储的疾病诊断数据最多保证了本次就诊数据的完备性,而当数据融合在一起时,疾病诊断编码对应的诊断名称或将不再唯一,造成诊断名称不再唯一的原因包括了各电子病历系统厂商设计差异、诊断编码系统院内差异、诊断名称书写习惯差异等。另一方面,现有的医院信息系统中,其诊断编码普遍以世界卫生组织发布的疾病和有关健康问题的国际统计分类(ICD-10)为标准,但其规定的ICD-10编码系统只保证亚目(四位码)的标准性,五位及以上的编码可以根据国家、地区、医院进行内部编码,这对诊断编码和诊断名称的唯一性提出了挑战。随着数据的进一步整合,对医疗数据的利用的诉求日益增长,靠人工经验核对诊断编码和诊断名称已无法适应增长过快的数据治理需求,因此构建逻辑匹配技术迫在眉睫。
技术实现思路
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。本专利技术的目的在于解决上述问题,提供了一种诊断编码和诊断名称匹配的方法和系统,使诊断编码和诊断名称的数据治理自动化,提高治理的效率,避免人工处理因个人经验造成的不确定性,提高了数据分析利用的价值。本专利技术的技术方案为:本专利技术揭示了一种诊断编码和诊断名称匹配的方法,包括:获取医院的诊断记录,所述诊断记录包括医院编码、诊断编码以及诊断名称;将所述医院编码、诊断编码以及诊断名称与预置的五元组匹配表相匹配,其中,所述五元组匹配表按照预设规则生成,所述五元组匹配表的内容包括医院编码、原始诊断编码、原始诊断名称、标准诊断编码、标准诊断名称;若所述医院编码、诊断编码以及诊断名称分别等于所述五元组匹配表中的医院编码、原始诊断编码、原始诊断名称,则将所述诊断编码和所述诊断名称分别替换为所述标准诊断编码和所述标准诊断名称。根据本专利技术的诊断编码和诊断名称匹配的方法的一实施例,所述五元组匹配表按照预设规则的生成步骤包括:获取医院各年份的历年数据,判断历年数据与基准年份的编码版本是否发生变更,若没有发生变更,则基于各年份的历年数据中的诊断编码、对应诊断名称的所有组合及其组合对应的就诊量构造决策矩阵;计算每个诊断编码对应的不同诊断名称的组内占比,记为Gratio属性,判断所述诊断名称的Gratio属性是否不小于预设阈值T3,若是,则标记对应的诊断编码为1,其余为0,并记为属性Rule1;在所述决策矩阵中,剔除满足Rule1=1的诊断编码对应的数据之后,对剩余的每个诊断编码按照Gratio属性从大到小排序,记为Grank属性,如果满足{Gratio|Grank=2}×T≤{Gratio|Grank=1}则Grank=1所对应的诊断名称为排序最优诊断名称,标记满足Grank=1所对应的诊断名称为1,其余为0,并记为属性Rule2,其中,{Gratio|Grank=1}表示Grank=1所对应的Gratio属性,{Gratio|Grank=2}表示Grank=2所对应的Gratio属性,T为采用统计经验确定的倍数;在所述决策矩阵中,剔除满足Rule2=1的诊断编码对应的数据之后,提取Gratio属性大于预设阈值T5的诊断编码和诊断名称,并将每一个诊断编码提取诊断名称相似度超过预设阈值T6的所有诊断名称中就诊量最多的诊断名称作为相似度最优诊断名称,标记选择的相似度最优诊断名称为1,其余为0,并记为属性Rule3;在所述决策矩阵中,剔除满足Rule3=1的诊断编码对应的数据之后,获取专家经验规则Rule4,提取决策矩阵中所有Rule1=1或Rule2=1或Rule3=1时所有的诊断编码和诊断名称,合并专家经验规则Rule4的诊断编码和诊断名称形成标准诊断编码和诊断名称对应表,并将所述决策矩阵中Rule1=1或Rule2=1或Rule3=1对应编码其他的诊断名称作为标准诊断名称,形成所述五元组匹配表。根据本专利技术的诊断编码和诊断名称匹配的方法的一实施例,所述判断历年数据与基准年份的编码版本是否发生变更包括:基于历年数据中每个年份的每个诊断编码的就诊量与基准年份相同诊断编码的就诊量获取同比变化量;将所述每年的同比变化量与预设的变化截点值相比较,如果所述同比变化量不大于所述预设的变化截点值,则获取该年份诊断编码不大于预设的变化截点值的唯一诊断编码的数量和该年份所有唯一诊断编码数量之比Vratio;如果Vratio大于预设阈值T2,则该年份的编码版本与基准年份的编码版本未发生变更。根据本专利技术的诊断编码和诊断名称匹配的方法的一实施例,所述预设的变化截点值为预设年份所有诊断编码的就诊量从大到小排列下的累积和在当年所有就诊量中的占比达到预设阈值T1情况下的最小的同比变化量。根据本专利技术的诊断编码和诊断名称匹配的方法的一实施例,所述预设阈值T1为(0.5,1),所述预设阈值T2的范围为(0.5,1),所述预设阈值T3的范围为(0.5,1),所述预设阈值T5的范围为[0.1,0.5),所述预设阈值T6的范围为(0.5,1)。根据本专利技术的诊断编码和诊断名称匹配的方法的一实施例,所述T为采用统计经验确定的倍数包括:在按照{Gratio|Grank=1}/{Gratio|Grank=2}从大到小的排列下,将Grank=1,2对应的就诊量之和占所有就诊量之比大于预设阈值T4的情况下的最小的{Gratio|Grank=1}/{Gratio|Grank=2}比值作为倍数T的统计经验值。根据本专利技术的诊断编码和诊断名称匹配的方法的一实施例,所述预设阈值T4的范围为(0.5,1)。根据本专利技术的诊断编码和诊断名称匹配的方法的一实施例,判断相似度超过预设阈值T6中的相似系数为JaroWinkler相似性simjw∈[0,1],0表示没有任何字符是相匹配的,1表示完全匹配。本专利技术还揭示了一种诊断编码和诊断名称匹配的系统,包括:诊断记录获取模块,获取医院的诊断记录,所述诊断记录包括医院编码、诊断编码以及诊断名称;匹配模块,将所述医院编码、诊断编码以及诊断名称与预置的五元组匹配表相匹配,其中,所述五元组匹配表按照预设规则生成,所述五元组匹配表的内容包括医院编码、原始诊断编码、原始诊断名称、标准诊断编码、标准诊断名称;替换模块,若所述医院编码、诊断编码以及诊断名称分别等于所述五元组匹配表中的医院编码、原始诊断编码、原始诊断名称,则将所述诊断编码和所述诊断名称分别替换为所述标准诊断编码和所述标准诊断名称。本专利技术还揭示了一种诊断编码和诊断名称匹配的系统,包括一计算设备以及运行于该计算设备上的一计算机程序,所述算机程序在计算设备上运行后执行如上所述的方法。本专利技术对比现有技术有如下的有益效果:本专利技术利用诊断编码版本检测技术,探查现有诊断编码系统是否发生过重大版本变更,其次,在保证未发生版本变更的情况下,利用逻辑匹配逻辑来寻找诊断编码对应的最优诊断名称,使得诊断编码与诊断名称在所处理的本文档来自技高网...

【技术保护点】
1.一种诊断编码和诊断名称匹配的方法,其特征在于,包括:获取医院的诊断记录,所述诊断记录包括医院编码、诊断编码以及诊断名称;将所述医院编码、诊断编码以及诊断名称与预置的五元组匹配表相匹配,其中,所述五元组匹配表按照预设规则生成,所述五元组匹配表的内容包括医院编码、原始诊断编码、原始诊断名称、标准诊断编码、标准诊断名称;若所述医院编码、诊断编码以及诊断名称分别等于所述五元组匹配表中的医院编码、原始诊断编码、原始诊断名称,则将所述诊断编码和所述诊断名称分别替换为所述标准诊断编码和所述标准诊断名称。

【技术特征摘要】
1.一种诊断编码和诊断名称匹配的方法,其特征在于,包括:获取医院的诊断记录,所述诊断记录包括医院编码、诊断编码以及诊断名称;将所述医院编码、诊断编码以及诊断名称与预置的五元组匹配表相匹配,其中,所述五元组匹配表按照预设规则生成,所述五元组匹配表的内容包括医院编码、原始诊断编码、原始诊断名称、标准诊断编码、标准诊断名称;若所述医院编码、诊断编码以及诊断名称分别等于所述五元组匹配表中的医院编码、原始诊断编码、原始诊断名称,则将所述诊断编码和所述诊断名称分别替换为所述标准诊断编码和所述标准诊断名称。2.根据权利要求1所述的诊断编码和诊断名称匹配的方法,其特征在于,所述五元组匹配表按照预设规则的生成步骤包括:获取医院各年份的历年数据,判断历年数据与基准年份的编码版本是否发生变更,若没有发生变更,则基于各年份的历年数据中的诊断编码、对应诊断名称的所有组合及其组合对应的就诊量构造决策矩阵;计算每个诊断编码对应的不同诊断名称的组内占比,记为Gratio属性,判断所述诊断名称的Gratio属性是否不小于预设阈值T3,若是,则标记对应的诊断编码为1,其余为0,并记为属性Rule1;在所述决策矩阵中,剔除满足Rule1=1的诊断编码对应的数据之后,对剩余的每个诊断编码按照Gratio属性从大到小排序,记为Grank属性,如果满足{Gratio|Grank=2}×T≤{Gratio|Grank=1}则Grank=1所对应的诊断名称为排序最优诊断名称,标记满足Grank=1所对应的诊断名称为1,其余为0,并记为属性Rule2,其中,{Gratio|Grank=1}表示Grank=1所对应的Gratio属性,{Gratio|Grank=2}表示Grank=2所对应的Gratio属性,T为采用统计经验确定的倍数;在所述决策矩阵中,剔除满足Rule2=1的诊断编码对应的数据之后,提取Gratio属性大于预设阈值T5的诊断编码和诊断名称,并将每一个诊断编码提取诊断名称相似度超过预设阈值T6的所有诊断名称中就诊量最多的诊断名称作为相似度最优诊断名称,标记选择的相似度最优诊断名称为1,其余为0,并记为属性Rule3;在所述决策矩阵中,剔除满足Rule3=1的诊断编码对应的数据之后,获取专家经验规则Rule4,提取决策矩阵中所有Rule1=1或Rule2=1或Rule3=1时所有的诊断编码和诊断名称,合并专家经验规则Rule4的诊断编码和诊断名称形成标准诊断编码和诊断名称对应表,并将所述决策矩阵中Rule1=1或Rule2=1或Rule3=1对应编码其他的诊断名称作为标准诊断名称,形成所述五元组匹配表。3.根据权利要求2所述的诊断编码和诊断名称匹配的方法,其特征在于,所述判断历...

【专利技术属性】
技术研发人员:宁光何萍崔斌姚华彦赵蓉马成龙李燕宋若刚张鑫金
申请(专利权)人:上海市内分泌代谢病研究所上海申康医院发展中心
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1