【技术实现步骤摘要】
民航安全领域的本体概念获取方法、装置及存储介质
本公开涉及民航安全领域,尤其涉及一种民航安全领域的本体概念获取方法、装置及存储介质。
技术介绍
知识图谱作为描述海量知识实体、属性及其之间关系的有效工具,自2012年谷歌成功应用于搜索引擎以来,已被学术界和产业界广泛使用。虽然国内外对通用知识图谱的研究正在迅速发展,但是垂直领域知识图谱目前数量较少。领域知识图谱面向特定领域,基于行业数据构建,把复杂的领域知识及知识体系通过数据挖掘、信息处理、知识计量和图形绘制显示出来,可为该领域的研究提供全方位、整体性、关系链的参考。本体构建是知识图谱构建过程中的重要环节之一,是知识组织基础工程,具有构建时间长、参与人数多、步骤复杂等特点。目前人工构建本体的方法(例如骨架法)相对成熟且准确,但是需要领域专家利用经验进行构建,工作量很大。目前,民航安全领域并没有构建成型的领域知识图谱,而面向民航安全领域的本体构建研究几乎无人涉及。
技术实现思路
有鉴于此,本公开提出了一种民航安全领域的本体概念获取技术方案,可依据民航安全领域积累的大量资源,快速准确地构建民航安全领域的本体概念,为民航安全知识的有效融合及保存、民航安全领域知识图谱的构建、以及更深层次的风险分析提供数据支撑。根据本公开的一方面,提供了一种民航安全领域的本体概念获取方法,所述方法包括:根据预设的民航安全词库,从多个民航安全文本中,确定出多个第一候选词;根据所述多个民航安全文本,分别确定各个第一候选词的词频-逆文档频率及 ...
【技术保护点】
1.一种民航安全领域的本体概念获取方法,其特征在于,所述方法包括:/n根据预设的民航安全词库,从多个民航安全文本中,确定出多个第一候选词;/n根据所述多个民航安全文本,分别确定各个第一候选词的词频-逆文档频率及领域相关度;/n根据所述词频-逆文档频率及所述领域相关度,从所述多个第一候选词中,选取多个第二候选词;/n从预设的参数描述文本中,确定出多个第三候选词,所述参数描述文本包括译码库中的多个参数描述信息,所述译码库作为民航安全领域的快速存取记录器中的数据的译码依据;/n根据所述参数描述文本及所述译码库,分别确定各个第三候选词的重要度;/n根据所述重要度,从所述多个第三候选词中,选取至少一个第四候选词;/n将所述多个第二候选词及所述至少一个第四候选词,确定为民航安全领域的本体概念词。/n
【技术特征摘要】
1.一种民航安全领域的本体概念获取方法,其特征在于,所述方法包括:
根据预设的民航安全词库,从多个民航安全文本中,确定出多个第一候选词;
根据所述多个民航安全文本,分别确定各个第一候选词的词频-逆文档频率及领域相关度;
根据所述词频-逆文档频率及所述领域相关度,从所述多个第一候选词中,选取多个第二候选词;
从预设的参数描述文本中,确定出多个第三候选词,所述参数描述文本包括译码库中的多个参数描述信息,所述译码库作为民航安全领域的快速存取记录器中的数据的译码依据;
根据所述参数描述文本及所述译码库,分别确定各个第三候选词的重要度;
根据所述重要度,从所述多个第三候选词中,选取至少一个第四候选词;
将所述多个第二候选词及所述至少一个第四候选词,确定为民航安全领域的本体概念词。
2.根据权利要求1所述的方法,其特征在于,所述根据所述参数描述文本及所述译码库,分别确定各个第三候选词的重要度,包括:
对于任一第三候选词,将所述第三候选词在所述参数描述文本中的出现次数与所有第三候选词在所述参数描述文本中的出现次数之和的比值,确定为所述第三候选词的词频;
确定所述第三候选词在目标参数描述信息中的位置,所述目标参数描述信息为包括所述第三候选词的参数描述信息;
根据所述译码库,确定与所述目标参数描述信息对应的参数的来源;
根据所述第三候选词的词频、所述第三候选词在目标参数描述信息中的位置、与所述目标参数描述信息对应的参数的来源及预设权重,确定所述第三候选词的重要度。
3.根据权利要求1所述的方法,其特征在于,所述根据所述多个民航安全文本,分别确定各个第一候选词的词频-逆文档频率及领域相关度,包括:
根据预设的共现窗口尺寸、所述多个第一候选词及所述多个民航安全文本,建立候选词有向图,所述候选词有向图包括多个节点,所述节点为第一候选词;
根据预设的迭代次数及权重确定方式,迭代更新所述候选词有向图中各个节点的权重;
将最后一次更新后的各个节点的权重,确定为各个第一候选词的领域相关度。
4.根据权利要求1所述的方法,其特征在于,所述根据所述多个民航安全文本,分别确定各个第一候选词的词频-逆文档频率及领域相关度,包括:
对于任一第一候选词,将所述第一候选词在目标文本中的出现次数与所有第一候选词在所述目标文本中的出现次数之和的比值,确定为所述第一候选词在所述目标文本中的词频,所述目标文本为包括所述第一候选词的任一民航安全文本;
根据包括所述第一候选词的民航安全文本的数量及民航安全文本的总数,确定所述第一候选词的逆文档频率;
根据所述第一候选词在所述目标文本中的词频及所述第一候选词的逆文档频率,确定所述第一候选词的词频-逆文档频率。
5.根...
【专利技术属性】
技术研发人员:焦洋,舒平,李斌,韩静茹,周秀婷,张潇月,张晨,
申请(专利权)人:中国民航科学技术研究院,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。