【技术实现步骤摘要】
本申请涉及文本处理,尤其涉及一种基于语义与结构采样策略的实体对齐方法和装置。
技术介绍
1、当前,从不同的知识图谱中识别出等效实体进行图谱融合实体对齐是知识图谱融合的关键技术。现有方式一是采用端到端实体匹配的神经网络模型实现实体对齐的模型,但是需要依赖大量种子对齐数据作为训练数据,而这些种子对齐数据的标注成本非常高;现有方式二是专注于具有文字属性的表格数据,其提出相似性度量或深度学习模型来比较文字属性,并生成主动学习的特征向量。然而,知识图谱中的实体与数据库中的实体差别很大,不同的知识图谱通常由异构模式表示。因此,如何能以更少的标注成本且更高效率的生成实体对齐模型是目前亟需解决的技术问题。
技术实现思路
1、为了能以更少的标注成本且更高效率的生成实体对齐模型,本申请提供了一种基于语义与结构采样策略的实体对齐方法和装置。
2、第一方面,本申请提供了一种基于语义与结构采样策略的实体对齐方法,方法包括:
3、提取未标记数据池中的所有未标记实体;
4、将所述未标
...【技术保护点】
1.一种基于语义与结构采样策略的实体对齐方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述未标记实体的上一次迭代得到的边界不确定性数值、所述未标记实体链接的其他实体的上一次迭代的边界不确定性数值,以及控制所述未标记实体的不确定性和所链接的其他实体不确定性的比重值,输入迭代算法进行计算直到满足预设迭代结果,得到所述未标记实体的边界不确定性的数值,具体包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求3所述的方法,其特征在于,所述计算所述未标记实体ei和待融合图谱中的
...【技术特征摘要】
1.一种基于语义与结构采样策略的实体对齐方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述未标记实体的上一次迭代得到的边界不确定性数值、所述未标记实体链接的其他实体的上一次迭代的边界不确定性数值,以及控制所述未标记实体的不确定性和所链接的其他实体不确定性的比重值,输入迭代算法进行计算直到满足预设迭代结果,得到所述未标记实体的边界不确定性的数值,具体包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求3所述的方法,其特征在于,所述计算所述未标记实体ei和待融合图谱中的各实体em的相似度f(ei,em),具体包括:
5.根据权利要求4所述的方法,其特征在于,所述将所述未标记实体ei和所述实体em输入语义表征模型得到...
【专利技术属性】
技术研发人员:何可嘉,徐会芳,邓桃,张英强,梁攀飞,马超,
申请(专利权)人:中国电力科学研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。