一种分层机构名称多维匹配方法、装置、设备及存储介质制造方法及图纸

技术编号:37062327 阅读:10 留言:0更新日期:2023-03-29 19:41
本发明专利技术公开了一种分层机构名称多维匹配方法、装置、设备及存储介质,涉及自然语言处理技术领域。所述方法是先获取待匹配分层机构名称与各个标准分层机构名称的搜索相关度、字符串相似度和地域相似度,然后采用线性加权模型在搜索相关度、字符串相似度和地域相似度等维度上进行多维融合,得到所述待匹配分层机构名称与所述各个标准分层机构名称的综合匹配度,最后将与综合匹配度最大值对应的标准分层机构名称作为所述待匹配分层机构名称的匹配结果并进行输出,如此在匹配过程中,不但会考虑词频

【技术实现步骤摘要】
一种分层机构名称多维匹配方法、装置、设备及存储介质


[0001]本专利技术属于自然语言处理
,具体涉及一种分层机构名称多维匹配方法、装置、设备及存储介质。

技术介绍

[0002]在自然语言处理的文本数据分析领域中,常见需要对机构(例如医疗机构和医学研究机构等)名称进行对齐:医学期刊出版的学术论文都会带有文章作者所属的机构名称,这些名称可能是该机构的规范名称也可能是作者随笔输入的。假如需要归一化所有的机构名称,或者需要通过这些机构名称来关联第三方机构的相关数据(以便进行进一步的数据汇总和分析),那么如何将实际上是同一机构但其名称可能略有不同的至少两个机构名称进行关联,就成为了一个必须要解决的问题。
[0003]目前,业界解决上述问题的现有方案一般有如下三种:基于文本搜索的方案、基于机器学习或者编辑距离的方案和基于人工比对和校准的方案。
[0004]基于文本搜索的方案主要是先建立机构名称的数据集,然后将待匹配的机构名称以文本搜索的方式在机构名称数据集中进行搜索和匹配,最后把搜索结果中排名第一的机构名称作为匹配结果。但是这种方案的显著缺点就是正确率较低。因为目前的搜索系统主流是依赖诸如BM25算法的TF

IDF(Term Frequency

Inverse Document Frequency,词频

逆向文档频率)模型(其主要原理是:在词频方面,如果某个搜索词在被搜索文档中出现了多次,那么该文档匹配本次搜索的分数会增加;而在逆文档频率方面,如果成功匹配的搜索词在所有文档中出现的次数非常少,那么所匹配的文档的分数也会增加),使得在机构名称匹配这个问题上,TF

IDF模型显然有所不足:(11)机构匹配搜索的是待匹配的机构名称,标准数据集所包含的文本数据也只有机构名称,词频特征会失效;(12)逆文档频率在文本内容较长的情况下表现良好,但在机构名称这种短语文本上效果会下降;(13)机构名称一般具有分层组织结构特点(例如有省级人民医院、市级人民医院和县级人民医院等三个层次),使得经分词后所得到的多个检索词,如果其中某个词在标准数据集中出现的次数比较少,很可能是该词本身在机构名称中出现得比较少,并不一定说明该词比较重要,例如机构名称中所包含的且带有地域特征的词很可能在标准数据集中出现多次,但不能说明这些词不重要。
[0005]基于机器学习或者编辑距离的方案经常被用来辅助文本分析问题,如果用在机构名称匹配这个问题上,该方案会根据机构名称的词向量特征结合诸如编辑距离等字符串比对特征建立一个分类学习模型。但是这种方案也有如下缺点:(21)构建模型成本高,监督式学习模型需要大量已标注的数据,这些数据一般来说需要人工标注。雇佣自然语言处理方面的数据科学家来完成模型构建和推理流程,价格不菲;(22)模型的效果不稳定,需要反复迭代,很容易出现过拟合的现象;(23)模型不易扩展,一旦需要应用于其他同类问题,整体模型需要重建。
[0006]基于人工比对和校准的方案的缺点显然就是费时费力,且无法复用以解决同类问
题。

技术实现思路

[0007]本专利技术的目的是提供一种分层机构名称多维匹配方法、装置、计算机设备及计算机可读存储介质,用以解决现有分层机构名称匹配方案所存在正确率较低、构建模型成本高、模型的效果不稳定、模型不易扩展以及人工费时费力的问题。
[0008]为了实现上述目的,本专利技术采用以下技术方案:
[0009]第一方面,提供了一种分层机构名称多维匹配方法,包括:
[0010]获取待匹配分层机构名称与在标准分层机构名称集合中各个标准分层机构名称的搜索相关度,其中,所述搜索相关度在区间[0,1]内取值;
[0011]获取所述待匹配分层机构名称与所述各个标准分层机构名称的字符串相似度,其中,所述字符串相似度在区间[0,1]内取值;
[0012]对所述待匹配分层机构名称依次进行分词处理和地域实体识别处理,得到地域实体集合,其中,所述地域实体集合中包含有至少一个规范化的地域实体名词;
[0013]按照如下公式计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的地域相似度:
[0014][0015]式中,n表示正整数,RS
n
表示所述待匹配分层机构名称与在所述标准分层机构名称集合中第n个标准分层机构名称的地域相似度,Count()表示集合元素总数统计函数,ED表示所述待匹配分层机构名称的地域实体集合,SD
n
表示所述第n个标准分层机构名称的且包含有至少一个规范化的地域实体名词的地域特征集合,max()表示求最大值函数,∩表示交集符号;
[0016]按照如下公式计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的综合匹配度:
[0017]P
n
=h
SS
*SS
n
+h
ZS
*ZS
n
+h
RS
*RS
n
[0018]式中,P
n
表示所述待匹配分层机构名称与所述第n个标准分层机构名称的综合匹配度,SS
n
表示所述待匹配分层机构名称与所述第n个标准分层机构名称的搜索相关度,ZS
n
表示所述待匹配分层机构名称与所述第n个标准分层机构名称的字符串相似度,h
SS
、h
ZS
和h
RS
分别为在区间[0,1]内取值的第一类权重系数,并且有h
SS
+h
RS
+h
ZS
=1;
[0019]将在所述标准分层机构名称集合中与综合匹配度最大值对应的标准分层机构名称作为所述待匹配分层机构名称的匹配结果并进行输出。
[0020]基于上述
技术实现思路
,提供了一种用于对分层机构名称进行精准匹配的多维度匹配方案,即先获取待匹配分层机构名称与各个标准分层机构名称的搜索相关度、字符串相似度和地域相似度,然后采用线性加权模型在搜索相关度、字符串相似度和地域相似度等维度上进行多维融合,得到所述待匹配分层机构名称与所述各个标准分层机构名称的综合匹配度,最后将与综合匹配度最大值对应的标准分层机构名称作为所述待匹配分层机构名称的匹配结果并进行输出,如此在匹配过程中,不但会考虑词频

逆文档特征,还会考虑机构名的文本固有特征及组成机构名的各个词的地域位置关系,进而可以显著提高匹配准确
率,并且无需建模,可降低成本,以及还可以泛化解决类似问题,便于实际应用和推广。
[0021]在一个可能的设计中,获取待匹配分层机构名称与在标准分层机构名称集合中各个标准分层机构名称的搜索相关度,包括:
[0022]将标准分层机构名称集合导入到elasticsearch搜索引擎中;
[0023]以待匹配分层机构名称为输入信息,应用所述elasticsearch搜索引擎返回本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分层机构名称多维匹配方法,其特征在于,包括:获取待匹配分层机构名称与在标准分层机构名称集合中各个标准分层机构名称的搜索相关度,其中,所述搜索相关度在区间[0,1]内取值;获取所述待匹配分层机构名称与所述各个标准分层机构名称的字符串相似度,其中,所述字符串相似度在区间[0,1]内取值;对所述待匹配分层机构名称依次进行分词处理和地域实体识别处理,得到地域实体集合,其中,所述地域实体集合中包含有至少一个规范化的地域实体名词;按照如下公式计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的地域相似度:式中,n表示正整数,RS
n
表示所述待匹配分层机构名称与在所述标准分层机构名称集合中第n个标准分层机构名称的地域相似度,Count()表示集合元素总数统计函数,ED表示所述待匹配分层机构名称的地域实体集合,SD
n
表示所述第n个标准分层机构名称的且包含有至少一个规范化的地域实体名词的地域特征集合,max()表示求最大值函数,∩表示交集符号;按照如下公式计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的综合匹配度:P
n
=h
SS
*SS
n
+h
ZS
*ZS
n
+h
RS
*RS
n
式中,P
n
表示所述待匹配分层机构名称与所述第n个标准分层机构名称的综合匹配度,SS
n
表示所述待匹配分层机构名称与所述第n个标准分层机构名称的搜索相关度,ZS
n
表示所述待匹配分层机构名称与所述第n个标准分层机构名称的字符串相似度,h
SS
、h
ZS
和h
RS
分别为在区间[0,1]内取值的第一类权重系数,并且有h
SS
+h
RS
+h
ZS
=1;将在所述标准分层机构名称集合中与综合匹配度最大值对应的标准分层机构名称作为所述待匹配分层机构名称的匹配结果并进行输出。2.根据权利要求1所述的分层机构名称多维匹配方法,其特征在于,获取待匹配分层机构名称与在标准分层机构名称集合中各个标准分层机构名称的搜索相关度,包括:将标准分层机构名称集合导入到elasticsearch搜索引擎中;以待匹配分层机构名称为输入信息,应用所述elasticsearch搜索引擎返回得到所述待匹配分层机构名称与在所述标准分层机构名称集合中各个标准分层机构名称的且基于BM25算法得到的相关性评分;对所述待匹配分层机构名称与所述各个标准分层机构名称的相关性评分进行归一化处理,得到所述待匹配分层机构名称与所述各个标准分层机构名称的搜索相关度。3.根据权利要求2所述的分层机构名称多维匹配方法,其特征在于,所述BM25算法采用如下公式:式中,n表示正整数,x表示所述待匹配分层机构名称,D
n
表示在所述标准分层机构名称
集合中第n个标准分层机构名称,Score
BM25
(x,D
n
)表示所述待匹配分层机构名称与所述第n个标准分层机构名称的相关性评分,m表示正整数,M表示所述待匹配分层机构名称的词总数,D表示所述标准分层机构名称集合,T
m
表示在所述待匹配分层机构名称中的第m个词,表示所述第m个词在所述标准分层机构名称集合中的出现次数,表示所述第m个词在所述第n个标准分层机构名称中的出现次数。4.根据权利要求2所述的分层机构名称多维匹配方法,其特征在于,对所述待匹配分层机构名称与所述各个标准分层机构名称的相关性评分进行归一化处理,得到所述待匹配分层机构名称与所述各个标准分层机构名称的搜索相关度,包括:从所述标准分层机构名称集合中提取出在相关性评分维度上处于前K名的K个标准分层机构名称,得到用于替换所述标准分层机构名称集合的标准分层机构名称候选集合,其中,K表示不小于8的正整数;按照如下公式计算得到所述待匹配分层机构名称与在所述标准分层机构名称候选集合中各个标准分层机构名称的搜索相关度:式中,k表示正整数,SS
k
表示所述待匹配分层机构名称与在所述标准分层机构名称候选集合中第k个标准分层机构名称的搜索相关度,Score
k
表示所述待匹配分层机构名称与所述第k个标准分层机构名称的相关性评分,Score
min
表示所述待匹配分层机构名称与所述标准分层机构名称候选集合所具有的相关性评分最小值,Score
max
表示所述待匹配分层机构名称与所述标准分层机构名称候选集合所具有的相关性评分最大值。5.根据权利要求1所述的分层机构名称多维匹配方法,其特征在于,获取所述待匹配分层机构名称与所述各个标准分层机构名称的字符串相似度,包括:获取所述待匹配分层机构名称与所述各个标准分层机构名称的编辑距离相似度,其中,所述编辑距离相似度在区间[0,1]内取值;获取所述待匹配分层机构名称与所述各个标准分层机构名称的J

W距离相似度,其中,所述J

W距离相似度在区间[0,1]内取值;按照如下公式计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的杰卡德相似度:式中,n表示正整数,ZS
n,jc
表示所述待匹配分层机构名称与在所述标准分层机构名称集合中第n个标准分层机构名称的杰卡德相似度,Tx表示所述待匹配分层机构名称的词集合,TD
n
表示所述第n个标准分层机构名称的词集合;按照如下公式计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的最长公共字符串相似度:
式中,ZS
n,lcs
表示所述待匹配分层机构名称与在所述标准分层机构名称集合中第n个标准分层机构名称的最长公共字符串相似度,x表示所述待匹配分层机构名称,D
n
表示所述第n个标准分层机构名称;LCS(x,D
n
)表示所述待匹配分层机构名称与所述第n个标准分层机构名称所具有的最长公共子字符串长度;按照如下公式计算得到所述待匹配分...

【专利技术属性】
技术研发人员:马明李博李静
申请(专利权)人:中华医学杂志社有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1