一种基于Point Set Registration的医学本体对齐方法技术

技术编号:29330669 阅读:24 留言:0更新日期:2021-07-20 17:48
一种基于Point Set Registration的医学本体对齐方法,本发明专利技术涉及医学本体对齐方法。本发明专利技术的目的是为了解决现有医学知识图谱融合的准确率低,数据匹配精度差,数据处理量大的问题。过程为:一、得到概念的向量表示;二、建立混合高斯模型;三、得到变换关系;四、将向量表示通过变换关系映射到同一向量空间中;五、在该向量空间中,对于一组医学本体中的某一个概念,在该概念对应的嵌入后向量的给定阈值半径内,若存在另一组医学本体中的概念的嵌入后向量,则这两组医学本体对象存在对齐关系;六、判断是否出现新的对齐,若是则利用新的对齐关系生成新的三元组正例,执行一;若否输出结果。本发明专利技术用于医学知识图谱领域。

【技术实现步骤摘要】
一种基于PointSetRegistration的医学本体对齐方法
本专利技术涉及基于PointSetRegistration的医学本体对齐方法,属于医学知识图谱领域。
技术介绍
本体(Ontology)使用概念以及概念之间的关系来表示领域知识,为语义标注、知识发现与共享、数据集成与决策等应用提供了支撑。由于医学本体构建的方式和角度多种多样,这就导致不同医学本体之间的异构性,即同一概念在不同的医学本体中通常拥有不同的上下文和不完全相同的含义。为了集成如此大的医学本体,医学本体自动匹配工具成为必然的解决方案。医学本体对齐是解决医学本体数据异构性的重要技术,在医学知识图谱的融合中具有重要意义。其研究方法主要分为两种:(1)基于字符串相似度和逻辑规则的医学本体对齐方法。(2)基于概念嵌入方法的医学本体对齐方法。但是现有方法在利用概念嵌入的方法解决医学本体对齐问题时,其概念嵌入在模型学习的过程中没有得到进一步的优化,每轮迭代产生的对齐结果在之后的迭代过程中没有被利用,导致医学知识图谱融合的准确率低,数据匹配精度差,数据处理量大的问题。
技术实现思路
本专利技术的目的是为了解决现有方法解决医学本体数据异构性的存在,导致医学知识图谱融合的准确率低,数据匹配精度差,数据处理量大的问题,而提出一种基于PointSetRegistration的医学本体对齐方法。一种基于PointSetRegistration的医学本体对齐方法具体过程为:步骤一、对两组医学本体数据集中的每一个概念进行嵌入,得到概念的向量表示;步骤二、基于步骤一建立混合高斯模型;步骤三、利用EM算法求解步骤二得到的混合高斯模型,得到两组医学本体数据集之间的变换关系Tθ(ym);步骤四、将步骤一得到的两组医学本体的向量表示通过步骤三的变换关系映射到同一向量空间中;步骤五、在该向量空间中,对于其中一组医学本体中的某一个概念,在该概念对应的嵌入后向量的给定阈值半径内,若存在另一组医学本体中的概念的嵌入后向量,则这两组医学本体对象存在对齐关系;步骤六、判断在步骤五中是否出现新的对齐,若是,则利用新的对齐关系生成新的三元组正例,执行步骤一;若否,输出结果。优选地,所述步骤一中对两组医学本体数据集中的每一个概念进行嵌入,得到概念的向量表示;具体过程为:利用TransE方法,使用医学本体数据集FMA包含的三元组关系作为输入,对医学本体数据集FMA中的每一个概念进行嵌入,得到概念的向量表示XN×D;利用TransE方法,使用医学本体数据集NCI包含的三元组关系作为输入,对医学本体数据集NCI中的每一个概念进行嵌入,得到概念的向量表示YM×D;XN×D和YM×D的表达式为:XN×D=(x1,…,xn,…,xN)T;YM×D=(y1,…,ym,…,yM)T;式中,x1为对医学本体数据集FMA中第一个概念进行嵌入得到的概念的向量,xn为对医学本体数据集FMA中第n个概念进行嵌入得到的概念的向量,xN为对医学本体数据集FMA中第N个概念进行嵌入得到的概念的向量,T为转置,y1为对医学本体数据集NCI中第一个概念进行嵌入得到的概念的向量,ym为对医学本体数据集NCI中第m个概念进行嵌入得到的概念的向量,yM为对医学本体数据集NCI中第M个概念进行嵌入得到的概念的向量;D为对医学本体中单个概念进行嵌入得到的向量的维数;N为医学本体数据集FMA的大小;M为医学本体数据集NCI的大小。优选地,所述步骤二中基于步骤一建立混合高斯模型;具体过程为:建立混合高斯模型的概率密度函数,表达式如下:式中,p(m)为第m个斯模型的先验概率,p(xn|m)为给定第m个高斯模型的情况下xn的条件概率分布,xn为对医学本体数据集FMA中第n个概念进行嵌入得到的概念的向量,M为本体数据集NCI的大小;前M项中:式中,σ2是前M个高斯模型中每个高斯模型的协方差,Tθ(ym)是变换关系;D为对医学本体中单个概念进行嵌入得到的向量的维数;第M+1项:式中,N为本体数据集FMA的大小。优选地,所述第m个混合高斯模型的先验概率为:式中,λ是噪声比例的先验。优选地,所述步骤三中利用EM算法求解步骤二得到的混合高斯模型,得到两组医学本体数据集之间的变换关系Tθ(ym);具体过程为:EM算法的Q函数定义为:式中,p(m|xn)为给定xn的情况下选择第m个高斯模型的条件概率分布,xn为对医学本体数据集FMA中第n个概念进行嵌入后的概念的向量,p(xn|m)为给定第m个高斯模型的情况下xn的条件概率分布,θ为s、R和t;其中s是缩放系数,R是旋转矩阵,t是平移向量;根据贝叶斯公式,以向量ym作为质心的高斯模型关于向量xn的后验概率为p(m|xn);将p(m|xn)带入EM算法的Q函数,得到变换关系Tθ(ym)。优选地,所述根据贝叶斯公式,以向量ym作为质心的高斯模型关于向量xn的后验概率p(m|xn)的表达式为:其中,Tθ(ym)为变换关系,Tθ(yi)为变换关系,yi为对本体数据集YM×D中第i个概念进行嵌入后的概念的向量,P(i)为第m个高斯模型的先验概率,P(xn|i)为选定第i个高斯模型后该模型产生xn的概率;c为替换变量。优选地,所述变换关系Tθ(ym)的表达式为:Tθ(ym)=sRym+t式中,s是缩放系数,R是旋转矩阵,t是平移向量。优选地,所述替换变量c表达式为;优选地,所述步骤五中给定阈值半径通过余弦距离求的。优选地,所述步骤六中生成新的三元组正例的方法具体过程为:使用对齐的概念对(o1,o2)∈P,根据以下的公式生成新的关系三元组:其中,o1、t1、h1均为FMA中的概念,r1为FMA中的关系,S1为FMA本体数据集中包含的三元组关系集合,o2、t2、h2均为NCI中的概念,r2为NCI中的关系,S2为NCI本体数据集中包含的三元组关系集合。本专利技术的有益效果为:为了解决医学知识图谱融合的准确率低,数据匹配精度差,数据处理量大的问题,本专利技术提出了一种基于PointSetRegistration的医学本体对齐方法,不需要引入外部知识,在对齐步骤使用无监督算法(步骤一到步骤六),算法简单易行,可靠性高,数据处理量少;另外,不同于通常的固定概念嵌入的本体匹配算法,本专利技术将在医学本体匹配的过程中引入PointSetRegistration算法,并对概念的嵌入表示进行迭代更新,以获得能够最大化优化目标的概念嵌入,数据匹配精度高,具有较高的可靠性和严谨的可解释性,提高了医学知识图谱融合的准确率。附图说明图1为本专利技术流程图。具体实施方式具体实施方式一:本实施方式一种基于PointSetRegis本文档来自技高网...

【技术保护点】
1.一种基于Point Set Registration的医学本体对齐方法,其特征在于:所述方法具体过程为:/n步骤一、对两组医学本体数据集中的每一个概念进行嵌入,得到概念的向量表示;/n步骤二、基于步骤一建立混合高斯模型;/n步骤三、利用EM算法求解步骤二得到的混合高斯模型,得到两组医学本体数据集之间的变换关系T

【技术特征摘要】
1.一种基于PointSetRegistration的医学本体对齐方法,其特征在于:所述方法具体过程为:
步骤一、对两组医学本体数据集中的每一个概念进行嵌入,得到概念的向量表示;
步骤二、基于步骤一建立混合高斯模型;
步骤三、利用EM算法求解步骤二得到的混合高斯模型,得到两组医学本体数据集之间的变换关系Tθ(ym);
步骤四、将步骤一得到的两组医学本体的向量表示通过步骤三的变换关系映射到同一向量空间中;
步骤五、在该向量空间中,对于其中一组医学本体中的某一个概念,在该概念对应的嵌入后向量的给定阈值半径内,若存在另一组医学本体中的概念的嵌入后向量,则这两组医学本体对象存在对齐关系;
步骤六、判断在步骤五中是否出现新的对齐,若是,则利用新的对齐关系生成新的三元组正例,执行步骤一;若否,输出结果。


2.根据权利要求1所述一种基于PointSetRegistration的医学本体对齐方法,其特征在于:所述步骤一中对两组医学本体数据集中的每一个概念进行嵌入,得到概念的向量表示;具体过程为:
利用TransE方法,使用医学本体数据集FMA包含的三元组关系作为输入,对医学本体数据集FMA中的每一个概念进行嵌入,得到概念的向量表示XN×D;
利用TransE方法,使用医学本体数据集NCI包含的三元组关系作为输入,对医学本体数据集NCI中的每一个概念进行嵌入,得到概念的向量表示YM×D;
XN×D和YM×D的表达式为:
XN×D=(x1,...,xn,...,xN)T;
YM×D=(y1,...,ym,...,yM)T;
式中,x1为对医学本体数据集FMA中第一个概念进行嵌入得到的概念的向量,xn为对医学本体数据集FMA中第n个概念进行嵌入得到的概念的向量,xN为对医学本体数据集FMA中第N个概念进行嵌入得到的概念的向量,T为转置,y1为对医学本体数据集NCI中第一个概念进行嵌入得到的概念的向量,ym为对医学本体数据集NCI中第m个概念进行嵌入得到的概念的向量,yM为对医学本体数据集NCI中第M个概念进行嵌入得到的概念的向量;D为对医学本体中单个概念进行嵌入得到的向量的维数;N为医学本体数据集FMA的大小;M为医学本体数据集NCI的大小。


3.根据权利要求2所述一种基于PointSetRegistration的医学本体对齐方法,其特征在于:所述步骤二中基于步骤一建立混合高斯模型;具体过程为:
建立混合高斯模型的概率密度函数,表达式如下:



式中,p(m)为第m个斯模型的先验概率,p(xn|m)为给定第m个高斯模型的情况下xn的条件概率分布,xn为对医学本体数据集FMA中第n个概念进行嵌入得到的概念的向量,M为本体数据集NCI的大小;
前M项中:



式中,σ2是前M个高斯模型中每个高斯模型的协方差,Tθ(ym)是变换关系;D为对医学本体中单个概念进行嵌入得到的向量的维数;
第M+1项...

【专利技术属性】
技术研发人员:刘扬段晨婕卓兴良刘晓燕郭茂祖
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1