术语匹配方法、装置、终端和计算机可读存储介质制造方法及图纸

技术编号:27685606 阅读:21 留言:0更新日期:2021-03-17 03:53
本发明专利技术提供了一种术语匹配方法、装置、终端、和计算机可读存储介质,其中,术语匹配方法包括:根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值;为每个相似度值赋予权重,多个相似度值分别与对应的权重相乘,乘积结果相加,得到多个相似度值的加权求和相似度,其中,加权求和相似度的值用于表示第一术语和第二术语的匹配度。通过本发明专利技术的技术方案能够实现术语系统(术语词典)之间术语的自动匹配,代替人工操作,降低错误率,有助于促进医疗数据集成、分析和再利用。

【技术实现步骤摘要】
术语匹配方法、装置、终端和计算机可读存储介质
本专利技术涉及医疗信息化领域,具体而言,涉及一种术语匹配方法、一种术语匹配装置、一种终端和一种计算机可读存储介质。
技术介绍
医学术语(下文简称术语)是医学领域里的专业用语,用来指称医学领域里的各种事物、现象、特性、关系和过程等,例如,疾病、药物、手术操作、检查检验等。这些术语是临床信息系统表达医学信息的必要成分。国内医学术语相关标准匮乏,体系尚不完整。这些术语标准中的术语在粒度和表达上与临床实际应用场景中的术语都存在很大差异,很难直接应用于临床信息系统中。因此,我国大部分医疗机构的医学信息系统创建了自己的私有术语字典,由于医疗信息系统厂商众多,同一机构的不同系统的同类术语字典都存在差异,例如,药品术语字典之间存在差异。这些原因导致各个临床信息系统中术语名称和编码的异构现象十分严重,使得医疗信息系统之间无法互操作,医疗数据难以共享。对此,不同医疗信息系统之间的信息交换则需要将不同系统的术语字典进行映射匹配。目前,这项工作一般由人工操作,出错率比较高,成为医疗数据集成、分析和再利用的瓶颈环节。
技术实现思路
本专利技术旨在至少解决现有技术或相关技术中存在的技术问题之一。为此,本专利技术的一个目的在于提供一种术语匹配方法。本专利技术的另一个目的在于提供一种术语匹配装置。本专利技术的另一个目的在于提供一种终端。本专利技术的另一个目的在于提供一种计算机可读存储介质。为了实现上述目的,根据本专利技术的第一方面的技术方案,提供了一种术语匹配方法,包括:根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值;为每个相似度值赋予权重,多个相似度值分别与对应的权重相乘,乘积结果相加,得到多个相似度值的加权求和相似度,其中,加权求和相似度的值用于表示第一术语和第二术语的匹配度。在该技术方案中,考虑到术语组成的复杂性,以多种相似度计算方法从多个维度对两个待匹配术语(第一术语和第二术语)的相似度进行计算,即通过至少两种相似度计算算法对术语之间的相似度进行计算,对应生成至少两个相似度值,并通过加权求和的方式整合多个(至少两个)相似度,以加权求和相似度来表示两个术语的匹配程度。其中,对应于多种相似度计算方法,会生成多个相似度值,而赋予权重的过程能够平衡多种相似度计算方法对最终求和相似度的影响,能够综合多种相似度计算方法的特点对术语的匹配度进行准确表示。提升了术语匹配准确度,解决了人工操作效率低,错误率高的问题,有利于促进医疗信息共享。其中,需要特别指出的是,本申请中提出的多种相似度计算方法至少包括两种相似度计算方法,例如,若利用2种算法计算第一术语和第二术语之间的相似度,则对应生成2个相似度值,若利用3种算法计算第一术语和第二术语之间的相似度,则对应生成3个相似度值,若利用4种算法计算第一术语和第二术语之间的相似度,则对应生成4个相似度值。基于多个相似度值进行后续的加权求和计算,加权求和计算得到的加权求和相似度用于表示术语之间的匹配程度,单独一种相似度值不用于表示术语之间的匹配度。仅使用一种相似度计算方法计算术语之间的相似度并以此为依据表示术语之间匹配程度的方法不包括在本申请的技术方案中。根据上述技术方案的术语匹配方法,可选地,在第一术语系统中指定一个术语,作为第一术语,在第二术语系统中任取一个术语,作为第二术语;根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值;为每个相似度值赋予权重,多个相似度值分别与对应的权重相乘,乘积结果相加,得到多个相似度值的加权求和相似度;通过多次改变第二术语的取值,每改变一次第二术语则进行一次计算,从而生成多个加权求和相似度,其中加权求和相似度的最大值用于表示第一术语系统中指定一个术语与第二术语系统中的第二术语的匹配度。在该技术方案中,术语系统中包含多条术语,每个术语由一串字符组成,在第一术语系统中选定一个术语(第一术语),遍历第二术语系统中的术语(第二术语),每次从第二术语系统中选取一个术语与第一术语系统中的术语进行加权求和相似度计算,通过多次选取可计算出多个加权求和相似度值,其中最大的值对应的第二术语系统中的术语即为匹配结果。提升了术语匹配准确度,建立术语匹配映射关系的效率较高,相较于人工操作明显提升了速度降低了错误率。根据上述任一项技术方案的术语匹配方法,可选地,在第一术语系统中取一个术语,作为第一术语,在第二术语系统中取一个术语,作为第二术语;根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值;为每个相似度值赋予权重,多个相似度值分别与对应的权重相乘,乘积结果相加,得到多个相似度值的加权求和相似度;通过多次改变第一术语和第二术语的取值,进行计算,从而生成多个加权求和相似度;对多个加权求和相似度进行求和运算,生成总匹配度值,总匹配度值用于表示第一术语系统和第二术语系统的匹配度。在该技术方案中,术语系统中包含多条术语,每个术语由一串字符组成。从第一术语系统和第二术语系统中各抽取一个术语,并以多种方法求这两个术语的相似度值,进而求取加权求和相似度,经过多次抽取并进行求和相似度的计算(计算出两个术语系统中两两术语之间的加权求和相似度),能够得到多个求和相似度值,这些相似度值累加得到总匹配度值,总匹配度值能够表示第一术语系统和第二术语系统之间的匹配度。根据上述任一项技术方案的术语匹配方法,可选地,计算过程具体还包括:在赋予权重的步骤中,通过多种权重组合对多个相似度值进行加权求和,以使每种权重组合对应生成一个总匹配度值,多种权重组合则生成多个总匹配度值;记录多个总匹配度值中的最大值,用于表示第一术语系统与第二术语系统的匹配结果。在该技术方案中,计算两两术语之间的加权求和相似度时,利用多组不同的权重组合对同一对术语之间的多个相似度值进行加权求和计算,得到多个加权求和相似度,多对术语的加权求和相似度累加可得术语系统之间的总匹配度,则根据不同的权重组合能够求取多个总匹配度,其中,总匹配度的最大值用于表示第一术语系统与第二术语系统的匹配结果。可选地,每组权重中各个权重相加等于1,以此种权重组合求出的加权求和相似度反映出多种相似度计算方法的加权平均相似度。根据上述任一项技术方案的术语匹配方法,可选地,根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值,具体包括:计算出第一术语与第二术语的余弦相似度、杰卡德相似度以及哈希相似度,对应生成余弦相似度值、杰卡德相似度值以及哈希相似度值。在该技术方案中,多种相似度计算算法包括:余弦相似度(Cosine相似度)、杰卡德相似度(Jaccard相似度)以及哈希相似度(Simhash相似度)。其中,Cosine相似度能够从词频维度计算两个短文本之间的相似程度,将术语转换(编码)为词频向量再由Cosine相似度计算算法进行计算能够获知两个术语之间的相似程度。Jaccard相似度又本文档来自技高网...

【技术保护点】
1.一种术语匹配方法,其特征在于,包括:/n根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值;/n为每个所述相似度值赋予权重,多个相似度值分别与对应的权重相乘,乘积结果相加,得到多个相似度值的加权求和相似度,其中,所述加权求和相似度的值用于表示所述第一术语和所述第二术语的匹配度。/n

【技术特征摘要】
1.一种术语匹配方法,其特征在于,包括:
根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值;
为每个所述相似度值赋予权重,多个相似度值分别与对应的权重相乘,乘积结果相加,得到多个相似度值的加权求和相似度,其中,所述加权求和相似度的值用于表示所述第一术语和所述第二术语的匹配度。


2.根据权利要求1所述的术语匹配方法,其特征在于,具体包括:
在第一术语系统中指定一个术语,作为所述第一术语,在第二术语系统中任取一个术语,作为所述第二术语;
根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值;
为每个所述相似度值赋予权重,多个相似度值分别与对应的权重相乘,乘积结果相加,得到多个相似度值的加权求和相似度;
通过多次改变所述第二术语的取值,每改变一次第二术语则进行一次计算,从而生成多个加权求和相似度,其中加权求和相似度的最大值用于表示所述第一术语系统中指定一个术语与所述第二术语系统中的第二术语的匹配度。


3.根据权利要求1所述的术语匹配方法,其特征在于,具体包括:
在第一术语系统中取一个术语,作为所述第一术语,在第二术语系统中取一个术语,作为所述第二术语;
根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值;
为每个所述相似度值赋予权重,多个相似度值分别与对应的权重相乘,乘积结果相加,得到多个相似度值的加权求和相似度;
通过多次改变所述第一术语和所述第二术语的取值,进行计算,从而生成多个加权求和相似度;
对多个加权求和相似度进行求和运算,生成总匹配度值,所述总匹配度值用于表示所述第一术语系统和所述第二术语系统的匹配度。


4.根据权利要求3所述的术语匹配方法,其特征在于,计算过程具体还包括:
在赋予权重的步骤中,通过多种权重组合对多个相似度值进行加权求和,以使每种权重组合对应生成一个总匹配度值,多种权重组合则生成多个总匹配度值;
记录多个总匹配度值中的最大值,用于表示所述第一术语系统与所述第二术语系统的匹配结果。


5.根据权利要求1至4中任一项所述的术语匹配方法,其特征在于,所述根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值,具体包括:
计算出所述第一术语与所述第二术语的余弦相似度、杰卡德相似度以及哈希相似度,对应生成余弦相似度值、杰卡德相似度值以及哈希相似度值。


6.根据权利要求5所述的术语匹配方法,其特征在于,计算所述第一术语与所述第二术语的余弦相似度...

【专利技术属性】
技术研发人员:王利宋志朋
申请(专利权)人:深圳中兴网信科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1