【技术实现步骤摘要】
构建数字战场知识图谱本体的方法、装置及存储介质
[0001]本专利技术涉及本体构建
,特别是涉及一种构建数字战场知识图谱本体的方法、装置及存储介质。
技术介绍
[0002]本体是某领域概念及概念间的关系的模型,可实现该领域的形式化描述。数字战场本体则是数字战场(军事)领域知识中的概念及其相互关系的形式化描述模型。领域本体构建了统一认知的概念集,克服人、组织以及系统之间因不同背景、语言、技术之间的沟通障碍,使得领域知识得以共享和复用。而数字战场本体的构建,专业性高,构建难度大,多为依靠领域专家手工构建,构建效率低。
[0003]国内外现有本体构建方法主要有TOVE法、骨架法、IDEF5法、七步法等,但目前还没有形成一套完善的本体构建工程方法,也没有专门针对领域中文文档知识的本体构建的成熟方法。
技术实现思路
[0004]本专利技术的实施例提供了一种数字战场知识图谱的本体构建方法、装置及存储介质,以提升数字战场领域本体构建的效率。
[0005]为了实现上述目的,一方面,提供了一种构建数字战场 ...
【技术保护点】
【技术特征摘要】
1.一种构建数字战场知识图谱本体的方法,其特征在于,包括:步骤S1,根据选定的数字战场知识图谱本体的领域,结合所收集的与选定领域相关的文献及术语,形成所述选定领域的术语词典,并将所述术语词典作为自定义词典加入到选定的自然语言处理工具中;步骤S2,利用所述选定的自然语言处理工具和所述自定义词典对原始语料进行预处理,得到所述原始语料中与所述选定领域相关的概念词汇,其中所述预处理包括分词、词性标注、和去除干扰项,所述干扰项包括语气词、介词和量词;步骤S3,使用特征项频率
‑
词语逆频率TF
‑
IWF算法计算所得到的概念词汇中每个概念词汇的领域权重,并根据计算出的领域权重确定所得到的概念词汇中的核心概念词汇;步骤S4,以所述核心概念词汇为基础,使用递归的自适应共振理论ART网络将相似概念进行聚类,获得一个聚类组;步骤S5,根据词频大小从所述聚类组中选择一个词频最大的候选词作为代表该聚类组对应类的本体概念,并将所选择的候选词从所述聚类组中移出;步骤S6,基于选定的更细的分类阈值,对已移出所述候选词的聚类组再次进行聚类,得到细类层次的聚类组,然后转入步骤S5,循环执行步骤S5
‑
S6,直到无法再细分聚类,得到聚类概念的层次关系;步骤S7,将得到的本体概念和概念的层次关系序列化为计算机可处理的网络本体语言OWL文件。2.根据权利要求1所述的方法,其特征在于,所述步骤S7包括:使用Jena语义网框架提供的api将本体概念和概念的层次关系以资源描述框架RDF的方式、OWL的格式序列化为计算机可处理的OWL文件。3.根据权利要求1所述的方法,其特征在于,所述步骤S3中,采用如下TF
‑
IWF公式来计算概念词汇的领域权重:其中TF
i,j
表示词语t
i
在文本j中的特征项频...
【专利技术属性】
技术研发人员:黄文勋,鲍首熙,洪万福,黄勇,
申请(专利权)人:厦门渊亭信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。