基于编辑距离的医学术语归一化方法、系统及介质技术方案

技术编号:34340982 阅读:145 留言:0更新日期:2022-07-31 03:54
本发明专利技术公开了基于编辑距离的医学术语归一化方法、系统及介质,属于数据处理技术领域,要解决的技术问题为如何有效解决实体间共指消解问题,快速完成术语归一化并具备较高准确率。包括如下步骤:获取医学术语归一词作为实体归一词,并对实体归一词标注实体类型;将实体原词和与其对应的实体归一词、实体类型作为一个词组,将词组作为知识构建知识库;计算目标实体与知识库中各个实体原词之间的编辑距离,并选取与目标实体的编辑距离小于阈值的一个或多个实体原词;从知识库中匹配对应的实体归一词;如果归一词词组中匹配到的实体归一词为多个,通过人工判定的方式选择一个实体归一词为所述目标实体对应的实体归一词。词为所述目标实体对应的实体归一词。词为所述目标实体对应的实体归一词。

【技术实现步骤摘要】
基于编辑距离的医学术语归一化方法、系统及介质


[0001]本专利技术涉及数据处理
,具体地说是基于编辑距离的医学术语归一化方法、系统及介质。

技术介绍

[0002]医学术语是医学领域中标准化的专业术语,包括疾病、药物、手术、症状、检查检验等不同类别的实体名词,制定术语标准化,严格定义实体词的概念与含义,是医学信息处理的基础,有效保障医学信息的规范化、标准化、统一化,减少了实体多义或同义现象,避免医学信息交流中的误解和歧义。
[0003]现阶段,随着医疗机构信息化不断深入,各种基于实际应用的医学术语名词标准的需求日益增加。伴随着医学的发展,疾病领域的区分更加细致化,各家医疗机构、科室之间的信息交流、共享、整合和利用因数据结构和表达的不同而无法达成。且由于地域差异性和口语化现象较为严重,导致存在多词同义现象,对之后进行医学信息研究和分析工作有很大影响。目前,医学领域术语归一化工作多为医学专业人员进行人工对比处理,需要耗费大量人力和精力,时间长效率低,并且由于地域广泛,沟通交流困难,很难达成一套统一的术语归一化体系。
[0004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于编辑距离的医学术语归一化方法,其特征在于包括如下步骤:获取医学医学术语归一词作为实体归一词,并对实体归一词标注实体类型;获取各个地区各个医院的实体原词,将实体原词和与其对应的实体归一词、实体类型作为一个词组,将词组作为知识构建知识库;对于要获取归一词的目标实体,计算目标实体与知识库中各个实体原词之间的编辑距离,并选取与目标实体的编辑距离小于阈值的一个或多个实体原词,将所述一个或多个实体原词作为所述目标实体的原词组;对于原词组中每个实体原词,从知识库中匹配对应的实体归一词,得到所述目标实体对应的归一词词组;如果归一词词组中匹配到的实体归一词为多个,通过人工判定的方式选择一个实体归一词为所述目标实体对应的实体归一词。2.根据权利要求1所述的基于编辑距离的医学术语归一化方法,其特征在于如果目标实体对应的实体类型为已知,基于实体类型从知识库中筛选出与所述目标实体同一个类型的实体原词,对于每个筛选出的每个实体原词,计算目标实体与所述实体原词之间的编辑距离。3.根据权利要求1所述的基于编辑距离的医学术语归一化方法,其特征在于如果所述目标实体未存在于知识库中,对所述目标实体进行人工校验后,将所述目标实体作为新的实体原词,将所述新的实体原词以及对应的实体归一词和实体类型作为一个词组,将所述词组作为知识更新至所述知识库中。4.根据权利要求1、2或3所述的基于编辑距离的医学术语归一化方法,其特征在于将目标实体与知识库中实体原词逐个进行字符串之间的编辑操作,计算出目标实体与实体原词之间的编辑距离,所述编辑操作包括添加、删除和修改;所述编辑距离计算公式为:其中,a表示,b表示,i表示,j表示,ai表示,bi表示。5.根据权利要求1、2或3所述的基于编辑距离的医学术语归一化方法,其特征在于依据国家发行的标准数据集、期刊、医学相关知识文档和文献进行数据处理提取出各类型的医学术语归一词。6.根据权利要求1、2或3所述的基于编辑距离的医学术语归一化方法,其特征在于所述实体类型包括疾病、药物、手术、检验检查以及操作。7.一种基于编辑距离的医学术语归一化系统,其特征在于用于通过如权利要求1
‑...

【专利技术属性】
技术研发人员:李宇萱李向阳
申请(专利权)人:浪潮软件集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1