一种概念节点的生成方法、装置及相关产品制造方法及图纸

技术编号:24091521 阅读:67 留言:0更新日期:2020-05-09 08:17
本申请公开一种概念节点的生成方法、装置及相关产品。本申请对图谱中概念节点各自对应的值域节点按照值域数据和单位数据两个类型进行划分,得到原始值域数据集合和单位概念节点,解除数值与单位之间的概念耦合关系。对原始值域数据集合中任意两个邻接值域数据构成的邻接值域进行划分,获得新的值域数据,利用新的值域数据和原始值域数据集合中的值域数据获得数值概念节点。利用数值概念节点和单位概念节点生成新的概念节点,数值与概念是非绑定的关系,数值概念节点也可以用于生成其他新的概念节点。本申请提升值域数据可复用能力,新的概念节点可以用于生成新的概念图谱,因为值域数据是可复用的,新的概念图谱有效节省数据存储资源和计算资源。

Generation method, device and related products of concept node

【技术实现步骤摘要】
一种概念节点的生成方法、装置及相关产品
本申请涉及数据存储与应用领域,特别是涉及一种概念节点的生成方法、装置及相关产品。
技术介绍
随着互联网技术和信息技术的飞速发展,数据内容呈现爆炸式增长的态势。数据内容的大规模、异质多元、组织结构松散的特点,给人们有效获取信息和知识带来了极大的挑战。知识图谱(KnowledgeGraph)以其强大的语义处理能力和开放组织能力,为互联网时代的知识化组织和智能应用奠定了基础。概念图谱是一种高级形式的知识图谱,概念图谱中因为概念节点、值域节点、术语节点的存在以及各种类型节点之间的联系,使得概念图谱在多种领域都有着较好的应用性能。但是现阶段已有的概念图谱中,数值与概念之间存在严格的绑定关系,这导致值域数据的可复用性非常差,造成数据存储资源及计算资源的浪费。
技术实现思路
基于上述问题,本申请提供了一种概念节点的生成方法、装置及相关产品,以新的方式生成概念节点,解除数值与概念的绑定关系,使值域数据的可复用能力提升,并节省数据存储资源和数据计算资源。本申请实施例公开了如下技术方案:第一方面,本申请提供一种概念节点的生成方法,包括:对于原始概念图谱中多个概念节点各自对应的值域节点,按照值域数据和单位数据两个类型进行划分,获得原始值域数据集合和单位概念节点;所述值域节点为包括下界、上界和单位的三元组;所述原始值域数据集合中,各个值域数据按照升序排列;对所述原始值域数据集合中任意两个邻接的值域数据构成的邻接值域进行划分,获得新的值域数据,利用所述新的值域数据和所述原始值域数据集合中的值域数据获得数值概念节点;利用所述数值概念节点和所述单位概念节点生成新的概念节点。可选地,对于原始概念图谱中多个概念节点各自对应的值域节点,按照值域数据和单位数据两个类型进行划分,获得原始值域数据集合和单位概念节点,具体包括:利用所有所述三元组中的下界和上界中不重复的值域数据,获得所述原始值域数据集合;利用所有所述三元组中的单位获得所述单位概念节点。可选地,对所述原始值域数据集合中任意两个邻接的值域数据构成的邻接值域进行划分,获得新的值域数据,具体包括:根据所述原始值域数据集合中的值域数据的分布情况确定待使用的函数;按照预设粒度对所述邻接值域进行划分,获得所述邻接值域对应的划分边界值,并将所述划分边界值加入到所述邻接值域中;利用所述待使用的函数、所述邻接值域的下界和上界、所述划分边界值和似然函数,获得所述划分边界值对应的似然函数值;确定出使似然函数值最大的划分边界值,并将该划分边界值作为所述新的值域数据添加到所述原始值域数据集合中。可选地,根据所述原始值域数据集合中的值域数据的分布情况确定待使用的函数,具体包括:判断原始值域数据集合中的值域数据是否与高斯函数以外的概率分布函数匹配,如果是,则将所述概率分布函数确定为所述待使用的函数;如果否,则将高斯函数确定为所述待使用的函数。可选地,在所述将该划分边界值作为所述新的值域数据添加到所述原始值域数据集合中之后,所述方法还包括:判断所述原始值域数据集合中的所有邻接值域是否均满足预设迭代结束条件,如果是,则结束迭代;所述利用所述新的值域数据和所述原始值域数据集合中的值域数据获得数值概念节点,具体包括:利用结束迭代后的原始值域数据集合中的值域数据获得所述数值概念节点。可选地,以上方法还包括:利用所述新的概念节点生成新的概念图谱。第二方面,本申请提供一种概念节点的生成装置,包括:第一划分模块,用于对于原始概念图谱中多个概念节点各自对应的值域节点,按照值域数据和单位数据两个类型进行划分,获得原始值域数据集合和单位概念节点;所述值域节点为包括下界、上界和单位的三元组;所述原始值域数据集合中,各个值域数据按照升序排列;第二划分模块,用于对所述原始值域数据集合中任意两个邻接的值域数据构成的邻接值域进行划分,获得新的值域数据,利用所述新的值域数据和所述原始值域数据集合中的值域数据获得数值概念节点;概念节点生成模块,用于利用所述数值概念节点和所述单位概念节点生成新的概念节点。可选地,第一划分模块具体包括:第一获取单元,用于利用所有所述三元组中的下界和上界中不重复的值域数据,获得所述原始值域数据集合;第二获取单元,用于利用所有所述三元组中的单位获得所述单位概念节点。可选地,第二划分模块,具体包括:函数确定单元,用于根据所述原始值域数据集合中的值域数据的分布情况确定待使用的函数;划分单元,用于按照预设粒度对所述邻接值域进行划分,获得所述邻接值域对应的划分边界值,将所述划分边界值加入到所述邻接值域中;计算单元,用于利用所述待使用的函数、所述邻接值域的下界和上界、所述划分边界值和似然函数,获得所述划分边界值对应的似然函数值;值域数据添加单元,用于确定出使似然函数值最大的划分边界值,并将该划分边界值作为所述新的值域数据添加到所述原始值域数据集合中。可选地,函数确定单元具体用于:判断原始值域数据集合中的值域数据是否与高斯函数以外的概率分布函数匹配,如果是,则将所述概率分布函数确定为所述待使用的函数;如果否,则将高斯函数确定为所述待使用的函数。可选地,装置还包括:判断模块,用于判断所述原始值域数据集合中的所有邻接值域是否均满足预设迭代结束条件,如果是,则结束迭代;第二划分模块,具体用于利用结束迭代后的原始值域数据集合中的值域数据获得所述数值概念节点。可选地,装置还包括:图谱生成模块,用于利用所述新的概念节点生成新的概念图谱。第三方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,当所述程序被处理器运行时,实现如第一方面提供的概念节点的生成方法。第四方面,本申请提供一种处理器,用于运行计算机程序,所述程序运行时执行如第一方面提供的概念节点的生成方法。相较于现有技术,本申请具有以下有益效果:原始概念图谱中值域节点是包括下界、上界和单位的三元组。本申请对图谱中多个概念节点各自对应的值域节点按照值域数据和单位数据两个类型进行划分,得到原始值域数据集合和单位概念节点。通过划分,将值域节点的值域数据与单位数据剥离开,解除了数值与单位之间的概念耦合关系。对原始值域数据集合中的任意两个邻接值域数据构成的邻接值域进行划分,获得新的值域数据,这些新的值域数据丰富了原始数据集合中原有的值域数据。利用新的值域数据和原始值域数据集合中的值域数据能够获得数值概念节点,该数值概念节点因为新的值域数据的作用而具备了更加容易识别的特点。并且,由于原始值域数据集合和单位概念节点实现了数值与单位的解耦合,因此利用原始值域数据集合获得的数值概念节点与单位概念节点之间也不存在耦合关系。本申请中,新的概念节点是利用数值概念节点和单位概念节点生成的,由于原始值域数据集合获得的数值概念节点与单位概念节点本文档来自技高网...

【技术保护点】
1.一种概念节点的生成方法,其特征在于,包括:/n对于原始概念图谱中多个概念节点各自对应的值域节点,按照值域数据和单位数据两个类型进行划分,获得原始值域数据集合和单位概念节点;所述值域节点为包括下界、上界和单位的三元组;所述原始值域数据集合中,各个值域数据按照升序排列;/n对所述原始值域数据集合中任意两个邻接的值域数据构成的邻接值域进行划分,获得新的值域数据,利用所述新的值域数据和所述原始值域数据集合中的值域数据获得数值概念节点;/n利用所述数值概念节点和所述单位概念节点生成新的概念节点。/n

【技术特征摘要】
1.一种概念节点的生成方法,其特征在于,包括:
对于原始概念图谱中多个概念节点各自对应的值域节点,按照值域数据和单位数据两个类型进行划分,获得原始值域数据集合和单位概念节点;所述值域节点为包括下界、上界和单位的三元组;所述原始值域数据集合中,各个值域数据按照升序排列;
对所述原始值域数据集合中任意两个邻接的值域数据构成的邻接值域进行划分,获得新的值域数据,利用所述新的值域数据和所述原始值域数据集合中的值域数据获得数值概念节点;
利用所述数值概念节点和所述单位概念节点生成新的概念节点。


2.根据权利要求1所述的方法,其特征在于,所述对于原始概念图谱中多个概念节点各自对应的值域节点,按照值域数据和单位数据两个类型进行划分,获得原始值域数据集合和单位概念节点,具体包括:
利用所有所述三元组中的下界和上界中不重复的值域数据,获得所述原始值域数据集合;利用所有所述三元组中的单位获得所述单位概念节点。


3.根据权利要求1所述的方法,其特征在于,所述对所述原始值域数据集合中任意两个邻接的值域数据构成的邻接值域进行划分,获得新的值域数据,具体包括:
根据所述原始值域数据集合中的值域数据的分布情况确定待使用的函数;
按照预设粒度对所述邻接值域进行划分,获得所述邻接值域对应的划分边界值,并将所述划分边界值加入到所述邻接值域中;
利用所述待使用的函数、所述邻接值域的下界和上界、所述划分边界值和似然函数,获得所述划分边界值对应的似然函数值;
确定出使似然函数值最大的划分边界值,并将该划分边界值作为所述新的值域数据添加到所述原始值域数据集合中。


4.根据权利要求3所述的方法,其特征在于,所述根据所述原始值域数据集合中的值域数据的分布情况确定待使用的函数,具体包括:
判断原始值域数据集合中的值域数据是否与高斯函数以外的概率分布函数匹配,如果是,则将所述概率分布函数确定为所述待使用的函数;如果否,则将高斯函数确定为所述待使用的函数。


5.根据权利要求3或4所述的方法,其特征在于,在所述将该划分边界值作为所述新的值域数据添加到所述原始值域数据集合中之后...

【专利技术属性】
技术研发人员:马忠义崔朝辉赵立军张霞
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1