医学实体对齐方法及装置制造方法及图纸

技术编号:32461506 阅读:34 留言:0更新日期:2022-02-26 08:51
本公开涉及一种医学实体对齐方法及装置,其中,方法包括:确定目标医学实体与标准医学实体数据集中的每个标准医学实体之间的语义相似度和文本结构相似度;基于文本结构相似度与语义相似度,确定文本结构相似度的权重系数和语义相似度的权重系数;基于权重系数分别对文本结构相似度、语义相似度进行加权,确定目标医学实体与各标准医学实体之间的目标相似度,以根据目标相似度从所述标准医学实体数据集中确定与目标医学实体匹配的标准医学实体。根据本公开的技术方案能够提高医学实体对齐的准确度。的准确度。的准确度。

【技术实现步骤摘要】
医学实体对齐方法及装置


[0001]本公开涉及数据处理
,尤其涉及一种医学实体对齐方法及装置。

技术介绍

[0002]在海量电子医疗信息中,对于同一医学实体存在不同的称谓方式,多种多样的称谓方式为医疗领域的本体构建和知识图谱的构建带来了阻碍。因此,需要将多称谓的医学实体映射到标准的术语中,实现融合利用多源数据知识。
[0003]目前,医学实体对齐的方法包括相同字符数、莱文斯坦距离、Jaro距离、汉明距离、统计语言模型、n

gram模型、主题模型、基于实体属性标签的实体对齐方法等,然而实际应用中的医学实体词汇多种多样,基于单一方法进行医学实体对齐的准确度有待提高。
[0004]申请公布号为CN112948599A,名称为“一种基于医学知识图谱的路径推理的疾病诊断方法”的专利中,公开了采用Levenshtein距离、相同字符比和语义向量距离的加权和作为实体相似度得分来进行实体对齐的技术方案,但该方案中所采用的距离计算方法仅能得到粗略的相似度结果,准确度仍具有提升空间。
[0005]申请公布号为CN113204710A,名称为“一种舆情分析方法、装置、终端设备及存储介质”的专利技术专利,公开了获取舆情信息的竞争力指标;若预存的多个标准指标中不包括竞争力指标,计算竞争力指标与每个标准指标的语义相似度;在语义相似度均小于第一预设阈值时,基于语义相似度,从标准指标中筛选出候选指标;计算候选指标和竞争力指标的字面相似度;若字面相似度中存在大于第二预设阈值的字面相似度,则将大于第二预设阈值的字面相似度中的最大值对应的候选指标作为与竞争力指标相匹配的标准指标的技术方案,但该方案是查询与语句中的关键词相近的标准词并替换,以降低舆情分析工作的数据量,应用场景有限。
[0006]申请公布号为CN111581960A,名称为“一种获取医学文本语义相似度的方法”的专利技术专利公开了计算基于医学文本之间三种不同特征的相似度;用回归模型学习基于不同特征的三种相似度在医学文本之间最终的相似度的权重,再用线性模型结合所述的三种相似度计算出最终的相似度的技术方案,但该方案需要提取与处理三种不同类型的文本特征,虽然能有效提升准确率但运算量过大,对运算设备有较高要求。
[0007]申请公布号为CN110674378A,名称为“基于余弦相似度和最小编辑距离的中文语义识别方法”的专利技术专利,公开了S5、结合语料知识库对中文语句进行中文分词,针对两段中文语义进行中文分词,将完整的中文语义分解为一个个单一的词语,根据配置的语义匹配规则对中文分词进行替换操作,计算词语出现的频率,针对两段中文语义分别构建两个词频向量,根据余弦相似度算法得出中文文字语义匹配率的数值;S6、中文拼音相似度计算:将中文文字转换为汉语拼音,根据拼音长度建立矩阵,按照删除、插入和替换三种编辑操作,循环计算整个矩阵,根据最小编辑距离算法得出中文拼音的匹配率数值;S7、语义总匹配度计算:根据步骤S5中计算得到的中文文字匹配度数值,步骤S6中拼音匹配度的数值,再结合步骤S4中配置的中文匹配和拼音匹配的权重,计算得出语义总匹配度的技术方案,
但由于医学领域实体的特殊性,简单的结合词频以及拼音并不能有效地解决医学实体对齐中存在的问题。

技术实现思路

[0008]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种医学实体对齐方法及装置。
[0009]第一方面,本公开实施例提供了一种医学实体对齐方法,包括:获取待处理的目标医学实体和预设的标准医学实体数据集;确定所述目标医学实体与所述标准医学实体数据集中的每个标准医学实体之间的语义相似度;确定所述目标医学实体与所述标准医学实体数据集中的每个标准医学实体之间的文本结构相似度;基于所述文本结构相似度与所述语义相似度,确定所述文本结构相似度的权重系数和所述语义相似度的权重系数;基于所述文本结构相似度的权重系数、所述语义相似度的权重系数分别对所述文本结构相似度、所述语义相似度进行加权,确定所述目标医学实体与各标准医学实体之间的目标相似度,以根据所述目标相似度从所述标准医学实体数据集中确定与所述目标医学实体匹配的标准医学实体。
[0010]第二方面,本公开实施例提供了一种医学实体对齐装置,包括:获取模块,用于获取待处理的目标医学实体和预设的标准医学实体数据集;第一确定模块,用于确定所述目标医学实体与所述标准医学实体数据集中的每个标准医学实体之间的语义相似度;第二确定模块,用于确定所述目标医学实体与所述标准医学实体数据集中的每个标准医学实体之间的文本结构相似度;第三确定模块,用于基于所述文本结构相似度与所述语义相似度,确定所述文本结构相似度的权重系数和所述语义相似度的权重系数;匹配模块,用于基于所述文本结构相似度的权重系数、所述语义相似度的权重系数分别对所述文本结构相似度、所述语义相似度进行加权,确定所述目标医学实体与各标准医学实体之间的目标相似度,以根据所述目标相似度从所述标准医学实体数据集中确定与所述目标医学实体匹配的标准医学实体。
[0011]第三方面,本公开实施例提供了一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述第一方面所述的医学实体对齐方法。
[0012]第四方面,本公开实施例提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的医学实体对齐方法。
[0013]本公开实施例提供的技术方案与现有技术相比具有如下优点:通过确定目标医学实体与标准医学实体数据集中的每个标准医学实体之间的文本结构相似度和语义相似度,基于文本结构相似度与语义相似度,确定文本结构相似度的权重系数和语义相似度的权重
系数,进而,基于权重系数分别对文本结构相似度、语义相似度进行加权,确定目标医学实体与各标准医学实体之间的目标相似度,以根据目标相似度从标准医学实体数据集中确定与目标医学实体匹配的标准医学实体,综合考虑文本结构相似度与语义相似度两种特征,能够准确的确定与目标医学实体匹配的标准医学实体,提高医学实体对齐的准确度。
附图说明
[0014]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0015]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0016]图1为本公开实施例所提供的一种医学实体对齐方法的流程示意图;图2为本公开实施例所提供的一种医学实体对齐装置的结构示意图;图3为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
[0017]为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医学实体对齐方法,其特征在于,包括:获取待处理的目标医学实体和预设的标准医学实体数据集;确定所述目标医学实体与所述标准医学实体数据集中的每个标准医学实体之间的语义相似度;确定所述目标医学实体与所述标准医学实体数据集中的每个标准医学实体之间的文本结构相似度;基于所述文本结构相似度与所述语义相似度,确定所述文本结构相似度的权重系数和所述语义相似度的权重系数;基于所述文本结构相似度的权重系数、所述语义相似度的权重系数分别对所述文本结构相似度、所述语义相似度进行加权,确定所述目标医学实体与各标准医学实体之间的目标相似度,以根据所述目标相似度从所述标准医学实体数据集中确定与所述目标医学实体匹配的标准医学实体。2.如权利要求1所述的方法,其特征在于,所述确定所述目标医学实体与所述标准医学实体数据集中的每个标准医学实体之间的语义相似度,包括:将所述标准医学实体输入预训练的词向量模型进行处理,生成所述标准医学实体的标准词向量;将所述目标医学实体输入所述词向量模型进行处理,生成所述目标医学实体的词向量;基于所述标准词向量和所述目标医学实体的词向量之间的相似度,确定所述语义相似度;所述将所述目标医学实体输入所述词向量模型进行处理,生成所述目标医学实体的词向量,包括:将所述目标医学实体输入word2vec模型进行处理,生成所述目标医学实体的第一词向量;将所述目标医学实体输入bert模型进行处理,生成所述目标医学实体的第二词向量;所述基于所述标准词向量和所述目标医学实体的词向量之间的相似度,确定所述语义相似度,包括:基于所述标准词向量和所述第一词向量,确定所述目标医学实体与标准医学实体之间的第一语义相似度;基于所述标准词向量和所述第二词向量,确定所述目标医学实体与标准医学实体之间的第二语义相似度。3.如权利要求1所述的方法,其特征在于,所述确定所述目标医学实体与所述标准医学实体数据集中的每个标准医学实体之间的文本结构相似度,包括:对于每个标准医学实体,确定所述目标医学实体与该标准医学实体之间的最小编辑距离;基于所述最小编辑距离,确定所述目标医学实体与该标准医学实体之间的文本结构相似度,其中,所述最小编辑距离与所述文本结构相似度成反比。4.如权利要求2所述的方法,其特征在于,所述基于所述文本结构相似度与所述语义相似...

【专利技术属性】
技术研发人员:李瑞瑞吉龙赵伟
申请(专利权)人:北京富通东方科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1