医学名称归一化方法、装置、存储介质及终端制造方法及图纸

技术编号:26172193 阅读:21 留言:0更新日期:2020-10-31 13:48
本发明专利技术提供一种医学名称归一化方法、装置、存储介质及终端。所述医学名称归一化方法包括:对医学标准词表中的每个标准词条进行第一阶段的拆解,得到每个标准词条所对应的多个医学属性;为每个标准词条构建相应的属性表达式;对所述每个标准词条进行第二阶段拆解,得到每个医学属性下的多个子属性;获取待归一的医学名称所对应的多个医学属性及每个医学属性下的多个子属性;将所述待归一的医学名称的多个子属性与标准词条的多个子属性进行表达式匹配计算;输出符合匹配要求的所述待归一的医学名称所对应的标准词条。本发明专利技术适用于复杂应用场景,极大降低了医学名称归一化的人力成本,提高了医学名称归一化的效率与准确率。

【技术实现步骤摘要】
医学名称归一化方法、装置、存储介质及终端
本专利技术涉及医学信息处理领域,特别是涉及医学名称归一化方法、装置、存储介质及终端。
技术介绍
医疗行业是数据密集型的行业,该行业无论是公共卫生、临床服务还是医学研究,都离不开数据的支撑。在医疗大数据平台建设过程中,需要对海量的医疗数据进行标准化处理,才能充分利用数据价值。但是,目前我国的医疗数据缺乏统一的标准规范,各个地区甚至各个医院都未使用统一的数据标准,严重影响了医疗大数据平台的数据质量和数据治理效果。我国不同地区甚至不同医院对于同一检查指标均存在不同的检验名称,仅以“血清钠”为例,就包括“钠离子浓度”、“NA+”、“动脉血钠”和“血钠(Na)”等十多种不同的名称。为解决上述医学检验名称差异带来的医疗数据治理难度大、数据质量低的问题,现阶段的基本方法是收集每种检验名称的同义词,通过建立同义词词表进行映射。但是,这种方法仅适用于简单场景,当外部输入检验文本稍微复杂时就会失效。例如,外部输入检验文本中若包含检验名称和样本来源或者其他信息字段时,某个检验名称为“α1微球蛋白/24h”,额外单位信息为“mg/24h”,需要获得准确词条“尿24小时微量白蛋白含量测定(24小时微量白蛋白)”,如果仅依靠同义词匹配,只能获得“尿微量白蛋白定量”这个词条。因此,上述方法得出的结果无法满足实际应用场景。除上述同义词词表的方法之外,还可以采取的方法有:建立标准词表,并预先定义标准词条的主属性和次要属性类别(类别数量确定,类别举例如下:“主诊断词”、“主解剖部位”、“次解剖部位”、“分型”、“病理”等),当外部输入检验文本全部满足主属性和所有次要属性类别条件时输出正确答案。这种方法的缺点如下:1)预先为标准词条定义固定数量的属性,当遇到复杂标准词条,原有属性数量不够用时,无法正确定义并准确输出该标准词条,会影响最终归一化效果2)判断标准词条的方法过于单一,仅考虑同时满足主属性和所有次要属性的包含条件,未考虑到各种属性之间的相关性、互斥性、顺序性等各种组合情况以及权重分配问题,不够灵活和通用。因此,亟需提出一种适用于复杂场景的具有更高的灵活性和通用性的医学名称归一化方法,以提高医学大数据平台的数据质量和数据治理效果。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供医学名称归一化方法、装置、存储介质及终端,用于解决现有技术中的医学名称归一化方法灵活性和通用性不够高,无法满足实际应用需要的问题。为实现上述目的及其他相关目的,本专利技术的第一方面提供一种医学名称归一化方法,包括:对医学标准词表中的每个标准词条进行第一阶段的拆解,以拆解得到每个标准词条所对应的多个医学属性;根据每个标准词条所对应的多个医学属性,为每个标准词条构建相应的属性表达式;对所述每个标准词条进行第二阶段拆解,以拆解得到每个医学属性下的多个子属性;获取待归一的医学名称所对应的多个医学属性及每个医学属性下的多个子属性;将所述待归一的医学名称的多个子属性与标准词条的多个子属性进行表达式匹配计算;根据计算结果,输出符合匹配要求的所述待归一的医学名称所对应的标准词条。于本专利技术的第一方面的一些实施例中,所述方法还包括:当所述待归一的医学名称所对应的标准词条不唯一时,对所述标准词条进行过滤和筛选,以获取待归一的医学名称所对应的唯一标准词条。于本专利技术的第一方面的一些实施例中,所述过滤和筛选的依据包括:属性之间的互斥关系、属性之间的节点关系和属性的权重值中的任一种或多种的组合。于本专利技术的第一方面的一些实施例中,所述方法还包括:在每个标准词条和其对应的多个子属性之间建立索引,以加速所述表达式匹配计算。于本专利技术的第一方面的一些实施例中,所述将所述待归一的医学名称的多个子属性与标准词条的多个子属性进行表达式匹配计算,具体包括:将所述待归一的医学名称的多个子属性拼接成多个子词条;将所述多个子词条与所述医学标准词表中的每个标准词条进行匹配,获取存在于所述医学标准词表中的子词条,组成标准子词条集;将所述待归一的医学名称的多个子属性与所述标准子词条集中的每个标准词条的多个子属性进行表达式匹配计算。于本专利技术的第一方面的一些实施例中,所述医学名称包括:医学检验名称、医学诊断名称和医学药品名称中的任一种。于本专利技术的第一方面的一些实施例中,所述医学属性的信息包括:正向属性信息和反向属性信息。为实现上述目的及其他相关目的,本专利技术的第二方面提供一种医学名称归一化装置,包括:第一拆解模块,对医学标准词表中的每个标准词条进行第一阶段的拆解,以拆解得到每个标准词条所对应的多个医学属性;表达式构建模块,根据每个标准词条所对应的多个医学属性,为每个标准词条构建相应的属性表达式;第二拆解模块,对所述每个标准词条进行第二阶段拆解,以拆解得到每个医学属性下的多个子属性;待归一的医学名称拆解模块,获取待归一的医学名称所对应的多个医学属性及每个医学属性下的多个子属性;表达式匹配计算模块,将所述待归一的医学名称的多个子属性与标准词条的多个子属性进行表达式匹配计算;标准词条输出模块,根据计算结果,输出符合匹配要求的所述待归一的医学名称所对应的标准词条。为实现上述目的及其他相关目的,本专利技术的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述医学名称归一化方法。为实现上述目的及其他相关目的,本专利技术的第四方面提供一种电子终端,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述医学名称归一化方法。如上所述,本专利技术提出的医学名称归一化方法、装置、存储介质及终端具有以下有益效果:解决了现有技术中的医学名称归一化方法灵活性和通用性不够高,无法满足实际应用需要的问题,本专利技术不受标准词条属性数量的限制,适用于复杂应用场景,并且极大降低了医学名称归一化的人力成本,提高了医学名称归一化的效率与准确率。附图说明图1显示为本专利技术一实施例中医学名称归一化方法流程示意图。图2显示为本专利技术一实施例中医学名称归一化装置结构示意图。图3显示为本专利技术一实施例中医学名称归一化装置结构示意图。图4显示为本专利技术一实施例中电子终端的结构示意图。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。需要说明的是,在下述描述中,参考附图,附图描述了本专利技术的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本专利技术的精神和范围的情况下进行组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本专利技术的实施例的范围仅由公布的专利的权利要求书所限定本文档来自技高网
...

【技术保护点】
1.一种医学名称归一化方法,其特征在于,包括:/n对医学标准词表中的每个标准词条进行第一阶段的拆解,以拆解得到每个标准词条所对应的多个医学属性;/n根据每个标准词条所对应的多个医学属性,为每个标准词条构建相应的属性表达式;/n对所述每个标准词条进行第二阶段拆解,以拆解得到每个医学属性下的多个子属性;/n获取待归一的医学名称所对应的多个医学属性及每个医学属性下的多个子属性;/n将所述待归一的医学名称的多个子属性与标准词条的多个子属性进行表达式匹配计算;/n根据计算结果,输出符合匹配要求的所述待归一的医学名称所对应的标准词条。/n

【技术特征摘要】
1.一种医学名称归一化方法,其特征在于,包括:
对医学标准词表中的每个标准词条进行第一阶段的拆解,以拆解得到每个标准词条所对应的多个医学属性;
根据每个标准词条所对应的多个医学属性,为每个标准词条构建相应的属性表达式;
对所述每个标准词条进行第二阶段拆解,以拆解得到每个医学属性下的多个子属性;
获取待归一的医学名称所对应的多个医学属性及每个医学属性下的多个子属性;
将所述待归一的医学名称的多个子属性与标准词条的多个子属性进行表达式匹配计算;
根据计算结果,输出符合匹配要求的所述待归一的医学名称所对应的标准词条。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:当所述待归一的医学名称所对应的标准词条不唯一时,对所述标准词条进行过滤和筛选,以获取待归一的医学名称所对应的唯一标准词条。


3.根据权利要求2所述的方法,其特征在于,所述过滤和筛选的依据包括:属性之间的互斥关系、属性之间的节点关系和属性的权重值中的任一种或多种的组合。


4.根据权利要求1所述的方法,其特征在于,所述方法还包括:在每个标准词条和其对应的多个子属性之间建立索引,以加速所述表达式匹配计算。


5.根据权利要求1所述的方法,其特征在于,所述将所述待归一的医学名称的多个子属性与标准词条的多个子属性进行表达式匹配计算,具体包括:
将所述待归一的医学名称的多个子属性拼接成多个子词条;
将所述多个子词条与所述医学标准词表中的每个标准词条进行匹配,获取存在于所述医学标准词表中的子词条,组成标准子词条集;
...

【专利技术属性】
技术研发人员:薛颜波顾根刘霄晨
申请(专利权)人:上海森亿医疗科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1