一种基于叙词表构建领域本体的方法及装置制造方法及图纸

技术编号:37258557 阅读:14 留言:0更新日期:2023-04-20 23:34
本申请提出了一种基于叙词表构建领域本体的方法及装置,该方法包括以下步骤:S1、遍历叙词表,提取叙词表中所有词条的关联文件集合;S2、构建叙词向量:叙词表包括N级叙词,遍历N级叙词,并且以对应的上一级叙词为原点,重复构建N

【技术实现步骤摘要】
一种基于叙词表构建领域本体的方法及装置


[0001]本申请涉及数据处理领域,具体涉及一种基于叙词表构建领域本体的方法及装置。

技术介绍

[0002]如今,在大数据环境下,行业领域内积累的大量叙词知识模型,在使用上存在隔离访问、难共享、对大数据指导力度弱的问题。
[0003]本体构建有多种途径,如直接构建领域本体、以现有分类法为基础构建领域本体、以现有叙词表为基础构建领域本体等。叙词表是特定学科领域内的表达事物概念的词汇集合;是通过各种方式对叙词之间的各种词义联系进行显示的词汇系统;是领域本体的目标是捕获相关领域的知识,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇之间相互关系的明确定义。
[0004]本体是一种能在语义层次上描述信息的概念模型,它通过对概念及其关系的描述,使得领域叙词在共享范围内具有被共同认可的、明确的、形式化的定义。然而,本体构建的方式仍然以手工构建为主,这种构建方法存在重复建设、重复治理的问题,并且难以进行维护。
[0005]鉴于此,本专利技术提出一种基于叙词表构建领域本体的方法及装置,将各行业各类叙词进行统一映射到N维空间进行向量化,构成标准的空间向量集合,使用此集合来作为知识图谱中模式层本体建模的方法。

技术实现思路

[0006]为解决现有大数据治理中重复建设、重复治理的技术问题,本专利技术的目的是提供一种基于叙词表构建领域本体的方法及装置,能够使冗余程度减小,并且复用、可共享、可维护的能力得到提升。
[0007]根据本专利技术的一个方面提出了一种基于叙词表构建领域本体的方法,该方法包括以下步骤:
[0008]S1、遍历叙词表,提取叙词表中所有词条的关联文件集合;
[0009]S2、构建叙词向量:叙词表包括N级叙词,遍历N级叙词,并且以对应的上一级叙词为原点,重复构建N

1级叙词向量;
[0010]S3、构建词条向量:从第一级叙词指向第N

1级叙词,构建XY平面向量;
[0011]S4、构建关联文件向量:从第一级叙词,以词条向量为点积,生成由关联文件集合决定的顶层本体三维模型;以及
[0012]S5、根据顶层本体三维模型和输入的领域主题生成领域本体模型。
[0013]在具体的实施例中,在步骤S2中,叙词表采用GB/T13190

1991标志的叙词表构成,叙词表包括N级叙词,第一级叙词为同级关系的叙词名和定义内容,第二级叙词到第N

1级叙词为属分关系的叙词和定义内容集合,第N级叙词为类缘关系的相关内容词条。
[0014]在具体的实施例中,在步骤S2中,还包括遍历叙词表的第一级叙词,生成一级叙词热引用表并根据已用次数逆序排序,去除一级叙词热引用表中的重复叙词,生成离散X轴数据集合,每个叙词坐标为(X,Y=0,Z=0)。
[0015]在具体的实施例中,在步骤S2中,还包括遍历叙词表的所有第二级叙词,以对应的第一级叙词(X,0,0)为原点构建向量;判断是否有重复的叙词,若有,则重复的叙词不计入节点数,生成从第一级叙词(X,0,0)为原点,以重复叙词顶点为终端的向量。
[0016]在具体的实施例中,在步骤S1中,遍历叙词表,提取叙词表中所有词条的关联文件集合,生成关联文件热引用表并根据已用次数逆序排序;将关联文件热引用表按照引用次数标注相对距离,生成离散Z轴数据集合。
[0017]在具体的实施例中,在步骤S5中,领域主题为用户随机输入的关键词或搜索关键字集合。
[0018]在具体的实施例中,在步骤S5中,根据顶层本体三维模型和输入的领域主题生成领域本体模型,具体包括以下子步骤:
[0019]S51、检测领域主题中包含的叙词,由检测到的叙词拓扑获得第一关联文件;
[0020]S52、全文搜索已知关联文件中是否包含领域主题,若包含,则将已知关联文件视为第二关联文件;
[0021]S53、通过顶层本体三维模型,检索出第一关联文件和第二关联文件对应的词条向量;
[0022]S54、去除所有无关的词条向量,生成领域本体模型;以及
[0023]S55、通过三维漫游,构建清晰的领域本体主题图。
[0024]第二方面,本申请提供了一种基于叙词表构建领域本体的装置,该装置包括:
[0025]关联文件获取模块,用于遍历叙词表,提取叙词表中所有词条的关联文件集合;
[0026]叙词向量构建模块,用于构建叙词向量:叙词表包括N级叙词,遍历N级叙词,并且以对应的上一级叙词为原点,重复构建N

1级叙词向量;
[0027]词条向量构建模块,用于构建词条向量:从第一级叙词指向第N

1级叙词,构建XY平面向量;
[0028]关联文件向量构建模块,用于构建关联文件向量:从第一级叙词,以词条向量为点积,生成由关联文件集合决定的顶层本体三维模型;以及
[0029]模型生成模块,用于根据顶层本体三维模型和输入的领域主题生成领域本体模型。
[0030]第三方面,本申请提供了一种电子设备,包括:
[0031]至少一个处理器;
[0032]以及与至少一个处理器通信连接的存储器;
[0033]其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上述中任一项的方法。
[0034]第四方面,本申请提供了一种计算机可读存储介质,该介质中存储有计算机程序,在计算机程序被处理器执行时,实施如上述中任一项的方法。
[0035]与现有技术相比,本专利技术的有益成果在于:
[0036]本申请将各行业各类叙词进行统一映射到N维空间进行向量化,构成标准的空间
向量集合,使用此向量集合来作为知识图谱中模式层本体建模的方法。此方法可以针对各领域生成公开的、领域的本体主题模型,以解决大数据治理中的重复建设、重复治理的问题,并且还可形成本体库管理知识图谱的模式层,使用此模型管理结构化的知识概念模型,不仅层次结构清晰明了,并且冗余程度大大减小,复用、可共享、可维护的能力得到提升。
附图说明
[0037]通过阅读参照以下附图,所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
[0038]图1是根据本申请的基于叙词表构建领域本体的方法的流程图;
[0039]图2是根据本申请的基于叙词表构建领域本体的装置的结构图;
[0040]图3是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
[0041]下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。
[0042]需要说明的是,在不冲突的情况下,本申请中的实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于叙词表构建领域本体的方法,其特征在于,包括以下步骤:S1、遍历叙词表,提取所述叙词表中所有词条的关联文件集合;S2、构建叙词向量:所述叙词表包括N级叙词,遍历所述N级叙词,并且以对应的上一级叙词为原点,重复构建N

1级叙词向量;S3、构建词条向量:从第一级叙词指向第N

1级叙词,构建XY平面向量;S4、构建关联文件向量:从所述第一级叙词,以所述词条向量为点积,生成由所述关联文件集合决定的顶层本体三维模型;以及S5、根据所述顶层本体三维模型和输入的领域主题生成领域本体模型。2.根据权利要求1所述的基于叙词表构建领域本体的方法,其特征在于,在步骤S2中,所述叙词表采用GB/T 13190

1991标志的叙词表构成,所述叙词表包括N级叙词,第一级叙词为同级关系的叙词名和定义内容,第二级叙词到第N

1级叙词为属分关系的叙词和定义内容集合,第N级叙词为类缘关系的相关内容词条。3.根据权利要求1所述的基于叙词表构建领域本体的方法,其特征在于,在步骤S2中,还包括遍历所述叙词表的第一级叙词,生成一级叙词热引用表并根据已用次数逆序排序,去除所述一级叙词热引用表中的重复叙词,生成离散X轴数据集合,每个叙词坐标为(X,Y=0,Z=0)。4.根据权利要求1所述的基于叙词表构建领域本体的方法,其特征在于,在步骤S2中,还包括遍历所述叙词表的所有第二级叙词,以对应的第一级叙词(X,0,0)为原点构建向量;判断是否有重复的叙词,若有,则所述重复的叙词不计入节点数,生成从所述第一级叙词(X,0,0)为原点,以重复叙词顶点为终端的向量。5.根据权利要求1所述的基于叙词表构建领域本体的方法,其特征在于,在步骤S1中,遍历叙词表,提取所述叙词表中所有词条的关联文件集合,生成关联文件热引用表并根据已用次数逆序排序;将所述关联文件热引用表按照引用次数标注相对距离,生成离散Z轴数据集合。6.根据权利要求1所述的...

【专利技术属性】
技术研发人员:刁薪予乔盛齐战胜倪艳玉周新波陈坤
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1