非标准疾病名称的归一化方法、装置及可读介质制造方法及图纸

技术编号:25839929 阅读:26 留言:0更新日期:2020-10-02 14:19
本发明专利技术提供了一种非标准疾病名称的归一化方法、装置及可读介质,该方法,包括:获取非标准疾病名称;根据口语化疾病类型,确定该非标准疾病名称的第一标识信息;根据第一标识信息和第一身体部位特征词,确定该非标准疾病名称的待归一化疾病名称;对待参考的ICD版本中的每一个标准疾病名称均执行以下步骤:根据标准疾病类型,确定该目标标准疾病名称的第二标识信息;根据第二标识信息和第二身体部位特征词,确定该目标标准疾病名称的中间标准疾病名称;按照设定计算规则计算待归一化疾病名称和每一个中间标准疾病名称的距离,确定在待参考的ICD版本中与该中间标准疾病名称相对应的标准疾病名称。本发明专利技术的方案能够准确地对非标准疾病名称进行归一。

【技术实现步骤摘要】
非标准疾病名称的归一化方法、装置及可读介质
本专利技术涉及医疗信息化
,特别涉及一种非标准疾病名称的归一化方法、装置及可读介质。
技术介绍
在我国,电子病历中存储了大量的诊断名称(即疾病名称),这些疾病名称多为口语化未统一标准的疾病名称(例如肺癌、老年痴呆等)。国际疾病分类(InternationalClassificationofDiseases,ICD),是依据疾病的病因、解剖部位、临床表现、病理对疾病进行分类。目前全世界使用最广泛的ICD版本是世界卫生组织WHO于1992年公布的ICD-10,各国或地区可以根据需要对ICD-10进行扩展形成本地化版本。因此,非标准疾病名称的归一化成为亟待解决的问题。目前,业界主要分为人工建立疾病归一库和计算机辅助建立疾病归一库两种方式。前者的缺点在于需要有专门的人员进行长期维护,人力成本较高;后者的缺点在于一般是通过词汇向量化(即word2vec)后计算词汇向量的欧式距离来判定词汇的相似程度,但在疾病名称归一化的工作中,疾病名称多为独立名词,缺乏上下文的关联,无法使用word2vec实现词汇的向量化。为解决后者所存在的问题,目前采用常规编辑距离的方式来判定词汇相似度。例如,输入的非标准疾病名称为“肺癌”,疾病归一库中存储有“肺炎”和“肺恶性肿瘤”,通过编辑距离计算得到“肺癌”和“肺炎”的距离为1(即汉字不同的数量为1),“肺癌”和“肺恶性肿瘤”的距离为4(即汉字不同的数量为4),输出两个距离之间的最小值,即输出标准疾病名称为“肺炎”,从而使输入的非标准疾病名称“肺癌”被归一为标准疾病名称“肺炎”,但是这并不是正确的输出(即正确的输出应当为标准疾病名称“肺恶性肿瘤”)。因此,单纯的使用编辑距离的方式仍无法准确地对非标准疾病名称进行归一。
技术实现思路
本专利技术实施例提供了非标准疾病名称的归一化方法、装置及可读介质,能够准确地对非标准疾病名称进行归一。第一方面,本专利技术实施例提供了非标准疾病名称的归一化方法,包括:获取非标准疾病名称;判断所述非标准疾病名称中是否包括第一身体部位特征词和口语化疾病类型;若是,则根据所述口语化疾病类型,确定该非标准疾病名称的第一标识信息,其中,所述第一标识信息用于指示待参考的ICD版本中与所述非标准疾病名称相对应的标准疾病类型;根据所述第一标识信息和所述第一身体部位特征词,确定该非标准疾病名称的待归一化疾病名称;对所述待参考的ICD版本中的每一个标准疾病名称均执行以下步骤:S1、如果该标准疾病名称包括第二身体部位特征词和标准疾病类型,则将该标准疾病名称确定为目标标准疾病名称;S2、根据所述标准疾病类型,确定该目标标准疾病名称的第二标识信息,其中,所述第二标识信息用于指示所述待参考的ICD版本中与该目标标准疾病名称相对应的标准疾病类型;S3、根据所述第二标识信息和所述第二身体部位特征词,确定该目标标准疾病名称的中间标准疾病名称;按照设定计算规则计算所述待归一化疾病名称和每一个中间标准疾病名称的距离,获得与所述待归一化疾病名称的距离最小的中间标准疾病名称;根据与所述待归一化疾病名称的距离最小的中间标准疾病名称,确定在所述待参考的ICD版本中与该中间标准疾病名称相对应的标准疾病名称。在一种可能的设计中,在所述判断所述非标准疾病名称中是否包括第一身体部位特征词和口语化疾病类型之前,进一步包括:对所述待参考的ICD版本中的每一个标准疾病名称按照标准疾病类型进行归类,并形成若干个按设定顺序排列的第一疾病分组;根据若干个按设定顺序排列的第一疾病分组,确定与每一个第一疾病分组中的标准疾病类型相对应的口语化疾病类型,并将包含口语化疾病类型的第一疾病分组确定为第二疾病分组;所述根据所述口语化疾病类型,确定该非标准疾病名称的第一标识信息,包括:根据所述口语化疾病类型,确定包含该口语化疾病类型的第二疾病分组,并确定该第二疾病分组在若干个第二疾病分组中的位置;根据该第二疾病分组在若干个第二疾病分组中的位置,确定该非标准疾病名称的第一标识信息;所述根据所述标准疾病类型,确定该目标标准疾病名称的第二标识信息,包括:根据所述标准疾病类型,确定包含该标准疾病类型的第二疾病分组,并确定该第二疾病分组在若干个第二疾病分组中的位置;根据该第二疾病分组在若干个第二疾病分组中的位置,确定该目标标准疾病名称的第二标识信息。在一种可能的设计中,所述设定计算规则,包括:判断与所述非标准疾病名称相对应的第二疾病分组在若干个第二疾病分组中的位置是否和与所述目标标准疾病名称相对应的第二疾病分组在若干个第二疾病分组中的位置相同,若是,则确定第一距离为0,若否,则确定第一距离为2;判断所述第一身体部位特征词和所述第二身体部位特征词是否相同,若是,则确定第二距离为0,若否,则确定第二距离为1;将所述第一距离和所述第二距离相加。在一种可能的设计中,所述根据与所述待归一化疾病名称的距离最小的中间标准疾病名称,确定在所述待参考的ICD版本中与该中间标准疾病名称相对应的标准疾病名称,包括:将与所述待归一化疾病名称的距离最小的中间标准疾病名称相对应的目标标准疾病名称进行存储,并确定为非标准ICD版本;确定第一疾病名称映射关系,其中,所述第一疾病名称映射关系用于表征所述非标准ICD版本中的目标标准疾病名称和所述待参考的ICD版本中与该目标标准疾病名称相对应的标准疾病名称之间的一一对应关系;根据所述第一疾病名称映射关系,确定在所述待参考的ICD版本中与该中间标准疾病名称相对应的标准疾病名称。在一种可能的设计中,在所述判断所述非标准疾病名称中是否包括第一身体部位特征词和口语化疾病类型之后,进一步包括:若否,则将所述非标准疾病名称存储到所述非标准ICD版本中;根据该非标准疾病名称,建立该非标准疾病名称和所述待参考的ICD版本中与该非标准疾病名称相对应的标准疾病名称的第二疾病名称映射关系。第二方面,本专利技术实施例提供了非标准疾病名称的归一化装置,包括:获取模块,用于获取非标准疾病名称;判断模块,用于判断所述非标准疾病名称中是否包括第一身体部位特征词和口语化疾病类型;若是,则根据所述口语化疾病类型,确定该非标准疾病名称的第一标识信息,其中,所述第一标识信息用于指示待参考的ICD版本中与所述非标准疾病名称相对应的标准疾病类型;第一确定模块,用于根据所述第一标识信息和所述第一身体部位特征词,确定该非标准疾病名称的待归一化疾病名称;循环模块,用于对所述待参考的ICD版本中的每一个标准疾病名称均执行以下步骤:S1、如果该标准疾病名称包括第二身体部位特征词和标准疾病类型,则将该标准疾病名称确定为目标标准疾病名称;S2、根据所述标准疾病类型,确定该目标标准疾病名称的第二标识信息,其中,所述第二标识信息用于指示所述待参考的ICD版本中与该目标本文档来自技高网
...

【技术保护点】
1.非标准疾病名称的归一化方法,其特征在于,包括:/n获取非标准疾病名称;/n判断所述非标准疾病名称中是否包括第一身体部位特征词和口语化疾病类型;/n若是,则根据所述口语化疾病类型,确定该非标准疾病名称的第一标识信息,其中,所述第一标识信息用于指示待参考的ICD版本中与所述非标准疾病名称相对应的标准疾病类型;/n根据所述第一标识信息和所述第一身体部位特征词,确定该非标准疾病名称的待归一化疾病名称;/n对所述待参考的ICD版本中的每一个标准疾病名称均执行以下步骤:/nS1、如果该标准疾病名称包括第二身体部位特征词和标准疾病类型,则将该标准疾病名称确定为目标标准疾病名称;/nS2、根据所述标准疾病类型,确定该目标标准疾病名称的第二标识信息,其中,所述第二标识信息用于指示所述待参考的ICD版本中与该目标标准疾病名称相对应的标准疾病类型;/nS3、根据所述第二标识信息和所述第二身体部位特征词,确定该目标标准疾病名称的中间标准疾病名称;/n按照设定计算规则计算所述待归一化疾病名称和每一个中间标准疾病名称的距离,获得与所述待归一化疾病名称的距离最小的中间标准疾病名称;/n根据与所述待归一化疾病名称的距离最小的中间标准疾病名称,确定在所述待参考的ICD版本中与该中间标准疾病名称相对应的标准疾病名称。/n...

【技术特征摘要】
1.非标准疾病名称的归一化方法,其特征在于,包括:
获取非标准疾病名称;
判断所述非标准疾病名称中是否包括第一身体部位特征词和口语化疾病类型;
若是,则根据所述口语化疾病类型,确定该非标准疾病名称的第一标识信息,其中,所述第一标识信息用于指示待参考的ICD版本中与所述非标准疾病名称相对应的标准疾病类型;
根据所述第一标识信息和所述第一身体部位特征词,确定该非标准疾病名称的待归一化疾病名称;
对所述待参考的ICD版本中的每一个标准疾病名称均执行以下步骤:
S1、如果该标准疾病名称包括第二身体部位特征词和标准疾病类型,则将该标准疾病名称确定为目标标准疾病名称;
S2、根据所述标准疾病类型,确定该目标标准疾病名称的第二标识信息,其中,所述第二标识信息用于指示所述待参考的ICD版本中与该目标标准疾病名称相对应的标准疾病类型;
S3、根据所述第二标识信息和所述第二身体部位特征词,确定该目标标准疾病名称的中间标准疾病名称;
按照设定计算规则计算所述待归一化疾病名称和每一个中间标准疾病名称的距离,获得与所述待归一化疾病名称的距离最小的中间标准疾病名称;
根据与所述待归一化疾病名称的距离最小的中间标准疾病名称,确定在所述待参考的ICD版本中与该中间标准疾病名称相对应的标准疾病名称。


2.根据权利要求1所述的方法,其特征在于,
在所述判断所述非标准疾病名称中是否包括第一身体部位特征词和口语化疾病类型之前,进一步包括:
对所述待参考的ICD版本中的每一个标准疾病名称按照标准疾病类型进行归类,并形成若干个按设定顺序排列的第一疾病分组;
根据若干个按设定顺序排列的第一疾病分组,确定与每一个第一疾病分组中的标准疾病类型相对应的口语化疾病类型,并将包含口语化疾病类型的第一疾病分组确定为第二疾病分组;
所述根据所述口语化疾病类型,确定该非标准疾病名称的第一标识信息,包括:
根据所述口语化疾病类型,确定包含该口语化疾病类型的第二疾病分组,并确定该第二疾病分组在若干个第二疾病分组中的位置;
根据该第二疾病分组在若干个第二疾病分组中的位置,确定该非标准疾病名称的第一标识信息;
所述根据所述标准疾病类型,确定该目标标准疾病名称的第二标识信息,包括:
根据所述标准疾病类型,确定包含该标准疾病类型的第二疾病分组,并确定该第二疾病分组在若干个第二疾病分组中的位置;
根据该第二疾病分组在若干个第二疾病分组中的位置,确定该目标标准疾病名称的第二标识信息。


3.根据权利要求2所述的方法,其特征在于,所述设定计算规则,包括:
判断与所述非标准疾病名称相对应的第二疾病分组在若干个第二疾病分组中的位置是否和与所述目标标准疾病名称相对应的第二疾病分组在若干个第二疾病分组中的位置相同,若是,则确定第一距离为0,若否,则确定第一距离为2;
判断所述第一身体部位特征词和所述第二身体部位特征词是否相同,若是,则确定第二距离为0,若否,则确定第二距离为1;
将所述第一距离和所述第二距离相加。


4.根据权利要求1所述的方法,其特征在于,所述根据与所述待归一化疾病名称的距离最小的中间标准疾病名称,确定在所述待参考的ICD版本中与该中间标准疾病名称相对应的标准疾病名称,包括:
将与所述待归一化疾病名称的距离最小的中间标准疾病名称相对应的目标标准疾病名称进行存储,并确定为非标准ICD版本;
确定第一疾病名称映射关系,其中,所述第一疾病名称映射关系用于表征所述非标准ICD版本中的目标标准疾病名称和所述待参考的ICD版本中的与该目标标准疾病名称相对应的标准疾病名称之间的一一对应关系;
根据所述第一疾病名称映射关系,确定在所述待参考的ICD版本中与该中间标准疾病名称相对应的标准疾病名称。


5.根据权利要求4所述的方法,其特征...

【专利技术属性】
技术研发人员:刘文丽
申请(专利权)人:山东健康医疗大数据有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1