一种基于Point Set Registration的医学本体对齐方法技术

技术编号：29330669 阅读：24 留言：0更新日期：2021-07-20 17:48

一种基于Point Set Registration的医学本体对齐方法，本发明专利技术涉及医学本体对齐方法。本发明专利技术的目的是为了解决现有医学知识图谱融合的准确率低，数据匹配精度差，数据处理量大的问题。过程为：一、得到概念的向量表示；二、建立混合高斯模型；三、得到变换关系；四、将向量表示通过变换关系映射到同一向量空间中；五、在该向量空间中，对于一组医学本体中的某一个概念，在该概念对应的嵌入后向量的给定阈值半径内，若存在另一组医学本体中的概念的嵌入后向量，则这两组医学本体对象存在对齐关系；六、判断是否出现新的对齐，若是则利用新的对齐关系生成新的三元组正例，执行一；若否输出结果。本发明专利技术用于医学知识图谱领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于PointSetRegistration的医学本体对齐方法
本专利技术涉及基于PointSetRegistration的医学本体对齐方法，属于医学知识图谱领域。
技术介绍
本体(Ontology)使用概念以及概念之间的关系来表示领域知识，为语义标注、知识发现与共享、数据集成与决策等应用提供了支撑。由于医学本体构建的方式和角度多种多样，这就导致不同医学本体之间的异构性，即同一概念在不同的医学本体中通常拥有不同的上下文和不完全相同的含义。为了集成如此大的医学本体，医学本体自动匹配工具成为必然的解决方案。医学本体对齐是解决医学本体数据异构性的重要技术，在医学知识图谱的融合中具有重要意义。其研究方法主要分为两种：(1)基于字符串相似度和逻辑规则的医学本体对齐方法。(2)基于概念嵌入方法的医学本体对齐方法。但是现有方法在利用概念嵌入的方法解决医学本体对齐问题时，其概念嵌入在模型学习的过程中没有得到进一步的优化，每轮迭代产生的对齐结果在之后的迭代过程中没有被利用，导致医学知识图谱融合的准确率低，数据匹配精度差，数据处理量大的问题。
技术实现思路
本专利技术的目的是为了解决现有方法解决医学本体数据异构性的存在，导致医学知识图谱融合的准确率低，数据匹配精度差，数据处理量大的问题，而提出一种基于PointSetRegistration的医学本体对齐方法。一种基于PointSetRegistration的医学本体对齐方法具体过程为：步骤一、对两组医学本体数据集中...

【技术保护点】
1.一种基于Point Set Registration的医学本体对齐方法，其特征在于：所述方法具体过程为：/n步骤一、对两组医学本体数据集中的每一个概念进行嵌入，得到概念的向量表示；/n步骤二、基于步骤一建立混合高斯模型；/n步骤三、利用EM算法求解步骤二得到的混合高斯模型，得到两组医学本体数据集之间的变换关系T

【技术特征摘要】
1.一种基于PointSetRegistration的医学本体对齐方法，其特征在于：所述方法具体过程为：
步骤一、对两组医学本体数据集中的每一个概念进行嵌入，得到概念的向量表示；
步骤二、基于步骤一建立混合高斯模型；
步骤三、利用EM算法求解步骤二得到的混合高斯模型，得到两组医学本体数据集之间的变换关系Tθ(ym)；
步骤四、将步骤一得到的两组医学本体的向量表示通过步骤三的变换关系映射到同一向量空间中；
步骤五、在该向量空间中，对于其中一组医学本体中的某一个概念，在该概念对应的嵌入后向量的给定阈值半径内，若存在另一组医学本体中的概念的嵌入后向量，则这两组医学本体对象存在对齐关系；
步骤六、判断在步骤五中是否出现新的对齐，若是，则利用新的对齐关系生成新的三元组正例，执行步骤一；若否，输出结果。

2.根据权利要求1所述一种基于PointSetRegistration的医学本体对齐方法，其特征在于：所述步骤一中对两组医学本体数据集中的每一个概念进行嵌入，得到概念的向量表示；具体过程为：
利用TransE方法，使用医学本体数据集FMA包含的三元组关系作为输入，对医学本体数据集FMA中的每一个概念进行嵌入，得到概念的向量表示XN×D；
利用TransE方法，使用医学本体数据集NCI包含的三元组关系作为输入，对医学本体数据集NCI中的每一个概念进行嵌入，得到概念的向量表示YM×D；
XN×D和YM×D的表达式为：
XN×D＝(x1，...，xn，...，xN)T；
YM×D＝(y1，...，ym，...，yM)T；
式中，x1为对医学本体数据集FMA中第一个概念进行嵌入得到的概念的向量，xn为对医学本体数据集FMA中第n个概念进行嵌入得到的概念的向量，xN为对医学本体数据集FMA中第N个概念进行嵌入得到的概念的向量，T为转置，y1为对医学本体数据集NCI中第一个概念进行嵌入得到的概念的向量，ym为对医学本体数据集NCI中第m个概念进行嵌入得到的概念的向量，yM为对医学本体数据集NCI中第M个概念进行嵌入得到的概念的向量；D为对医学本体中单个概念进行嵌入得到的向量的维数；N为医学本体数据集FMA的大小；M为医学本体数据集NCI的大小。

3.根据权利要求2所述一种基于PointSetRegistration的医学本体对齐方法，其特征在于：所述步骤二中基于步骤一建立混合高斯模型；具体过程为：
建立混合高斯模型的概率密度函数，表达式如下：

式中，p(m)为第m个斯模型的先验概率，p(xn|m)为给定第m个高斯模型的情况下xn的条件概率分布，xn为对医学本体数据集FMA中第n个概念进行嵌入得到的概念的向量，M为本体数据集NCI的大小；
前M项中：

式中，σ2是前M个高斯模型中每个高斯模型的协方差，Tθ(ym)是变换关系；D为对医学本体中单个概念进行嵌入得到的向量的维数；
第M+1项...

【专利技术属性】
技术研发人员：刘扬，段晨婕，卓兴良，刘晓燕，郭茂祖，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：黑龙江;23

全部详细技术资料下载我是这个专利的主人