【技术实现步骤摘要】
一种分层机构名称多维匹配方法、装置、设备及存储介质
[0001]本专利技术属于自然语言处理
,具体涉及一种分层机构名称多维匹配方法、装置、设备及存储介质。
技术介绍
[0002]在自然语言处理的文本数据分析领域中,常见需要对机构(例如医疗机构和医学研究机构等)名称进行对齐:医学期刊出版的学术论文都会带有文章作者所属的机构名称,这些名称可能是该机构的规范名称也可能是作者随笔输入的。假如需要归一化所有的机构名称,或者需要通过这些机构名称来关联第三方机构的相关数据(以便进行进一步的数据汇总和分析),那么如何将实际上是同一机构但其名称可能略有不同的至少两个机构名称进行关联,就成为了一个必须要解决的问题。
[0003]目前,业界解决上述问题的现有方案一般有如下三种:基于文本搜索的方案、基于机器学习或者编辑距离的方案和基于人工比对和校准的方案。
[0004]基于文本搜索的方案主要是先建立机构名称的数据集,然后将待匹配的机构名称以文本搜索的方式在机构名称数据集中进行搜索和匹配,最后把搜索结果中排名第一的机构名称作为匹配结果。但是这种方案的显著缺点就是正确率较低。因为目前的搜索系统主流是依赖诸如BM25算法的TF
‑
IDF(Term Frequency
–
Inverse Document Frequency,词频
‑
逆向文档频率)模型(其主要原理是:在词频方面,如果某个搜索词在被搜索文档中出现了多次,那么该文档匹配本次搜索的分数会增加;而在逆文档频率方面,如 ...
【技术保护点】
【技术特征摘要】
1.一种分层机构名称多维匹配方法,其特征在于,包括:获取待匹配分层机构名称与在标准分层机构名称集合中各个标准分层机构名称的搜索相关度,其中,所述搜索相关度在区间[0,1]内取值;获取所述待匹配分层机构名称与所述各个标准分层机构名称的字符串相似度,其中,所述字符串相似度在区间[0,1]内取值;对所述待匹配分层机构名称依次进行分词处理和地域实体识别处理,得到地域实体集合,其中,所述地域实体集合中包含有至少一个规范化的地域实体名词;按照如下公式计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的地域相似度:式中,n表示正整数,RS
n
表示所述待匹配分层机构名称与在所述标准分层机构名称集合中第n个标准分层机构名称的地域相似度,Count()表示集合元素总数统计函数,ED表示所述待匹配分层机构名称的地域实体集合,SD
n
表示所述第n个标准分层机构名称的且包含有至少一个规范化的地域实体名词的地域特征集合,max()表示求最大值函数,∩表示交集符号;按照如下公式计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的综合匹配度:P
n
=h
SS
*SS
n
+h
ZS
*ZS
n
+h
RS
*RS
n
式中,P
n
表示所述待匹配分层机构名称与所述第n个标准分层机构名称的综合匹配度,SS
n
表示所述待匹配分层机构名称与所述第n个标准分层机构名称的搜索相关度,ZS
n
表示所述待匹配分层机构名称与所述第n个标准分层机构名称的字符串相似度,h
SS
、h
ZS
和h
RS
分别为在区间[0,1]内取值的第一类权重系数,并且有h
SS
+h
RS
+h
ZS
=1;将在所述标准分层机构名称集合中与综合匹配度最大值对应的标准分层机构名称作为所述待匹配分层机构名称的匹配结果并进行输出。2.根据权利要求1所述的分层机构名称多维匹配方法,其特征在于,获取待匹配分层机构名称与在标准分层机构名称集合中各个标准分层机构名称的搜索相关度,包括:将标准分层机构名称集合导入到elasticsearch搜索引擎中;以待匹配分层机构名称为输入信息,应用所述elasticsearch搜索引擎返回得到所述待匹配分层机构名称与在所述标准分层机构名称集合中各个标准分层机构名称的且基于BM25算法得到的相关性评分;对所述待匹配分层机构名称与所述各个标准分层机构名称的相关性评分进行归一化处理,得到所述待匹配分层机构名称与所述各个标准分层机构名称的搜索相关度。3.根据权利要求2所述的分层机构名称多维匹配方法,其特征在于,所述BM25算法采用如下公式:式中,n表示正整数,x表示所述待匹配分层机构名称,D
n
表示在所述标准分层机构名称
集合中第n个标准分层机构名称,Score
BM25
(x,D
n
)表示所述待匹配分层机构名称与所述第n个标准分层机构名称的相关性评分,m表示正整数,M表示所述待匹配分层机构名称的词总数,D表示所述标准分层机构名称集合,T
m
表示在所述待匹配分层机构名称中的第m个词,表示所述第m个词在所述标准分层机构名称集合中的出现次数,表示所述第m个词在所述第n个标准分层机构名称中的出现次数。4.根据权利要求2所述的分层机构名称多维匹配方法,其特征在于,对所述待匹配分层机构名称与所述各个标准分层机构名称的相关性评分进行归一化处理,得到所述待匹配分层机构名称与所述各个标准分层机构名称的搜索相关度,包括:从所述标准分层机构名称集合中提取出在相关性评分维度上处于前K名的K个标准分层机构名称,得到用于替换所述标准分层机构名称集合的标准分层机构名称候选集合,其中,K表示不小于8的正整数;按照如下公式计算得到所述待匹配分层机构名称与在所述标准分层机构名称候选集合中各个标准分层机构名称的搜索相关度:式中,k表示正整数,SS
k
表示所述待匹配分层机构名称与在所述标准分层机构名称候选集合中第k个标准分层机构名称的搜索相关度,Score
k
表示所述待匹配分层机构名称与所述第k个标准分层机构名称的相关性评分,Score
min
表示所述待匹配分层机构名称与所述标准分层机构名称候选集合所具有的相关性评分最小值,Score
max
表示所述待匹配分层机构名称与所述标准分层机构名称候选集合所具有的相关性评分最大值。5.根据权利要求1所述的分层机构名称多维匹配方法,其特征在于,获取所述待匹配分层机构名称与所述各个标准分层机构名称的字符串相似度,包括:获取所述待匹配分层机构名称与所述各个标准分层机构名称的编辑距离相似度,其中,所述编辑距离相似度在区间[0,1]内取值;获取所述待匹配分层机构名称与所述各个标准分层机构名称的J
‑
W距离相似度,其中,所述J
‑
W距离相似度在区间[0,1]内取值;按照如下公式计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的杰卡德相似度:式中,n表示正整数,ZS
n,jc
表示所述待匹配分层机构名称与在所述标准分层机构名称集合中第n个标准分层机构名称的杰卡德相似度,Tx表示所述待匹配分层机构名称的词集合,TD
n
表示所述第n个标准分层机构名称的词集合;按照如下公式计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的最长公共字符串相似度:
式中,ZS
n,lcs
表示所述待匹配分层机构名称与在所述标准分层机构名称集合中第n个标准分层机构名称的最长公共字符串相似度,x表示所述待匹配分层机构名称,D
n
表示所述第n个标准分层机构名称;LCS(x,D
n
)表示所述待匹配分层机构名称与所述第n个标准分层机构名称所具有的最长公共子字符串长度;按照如下公式计算得到所述待匹配分...
【专利技术属性】
技术研发人员:马明,李博,李静,
申请(专利权)人:中华医学杂志社有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。