民航安全领域的本体概念获取方法、装置及存储介质制造方法及图纸

技术编号:26479160 阅读:25 留言:0更新日期:2020-11-25 19:23
本公开涉及一种民航安全领域的本体概念获取方法、装置及存储介质,该方法包括:根据预设的民航安全词库,从多个民航安全文本中,确定出多个第一候选词;根据多个民航安全文本,分别确定各个第一候选词的词频‑逆文档频率及领域相关度;根据词频‑逆文档频率及领域相关度,从多个第一候选词中,选取多个第二候选词;从预设的参数描述文本中,确定出多个第三候选词;根据参数描述文本及译码库,分别确定各个第三候选词的重要度;根据所述重要度,从所述多个第三候选词中,选取至少一个第四候选词;将多个第二候选词及至少一个第四候选词,确定为民航安全领域的本体概念词。本公开的实施例可提高民航安全领域的本体概念的获取效率及准确性。

【技术实现步骤摘要】
民航安全领域的本体概念获取方法、装置及存储介质
本公开涉及民航安全领域,尤其涉及一种民航安全领域的本体概念获取方法、装置及存储介质。
技术介绍
知识图谱作为描述海量知识实体、属性及其之间关系的有效工具,自2012年谷歌成功应用于搜索引擎以来,已被学术界和产业界广泛使用。虽然国内外对通用知识图谱的研究正在迅速发展,但是垂直领域知识图谱目前数量较少。领域知识图谱面向特定领域,基于行业数据构建,把复杂的领域知识及知识体系通过数据挖掘、信息处理、知识计量和图形绘制显示出来,可为该领域的研究提供全方位、整体性、关系链的参考。本体构建是知识图谱构建过程中的重要环节之一,是知识组织基础工程,具有构建时间长、参与人数多、步骤复杂等特点。目前人工构建本体的方法(例如骨架法)相对成熟且准确,但是需要领域专家利用经验进行构建,工作量很大。目前,民航安全领域并没有构建成型的领域知识图谱,而面向民航安全领域的本体构建研究几乎无人涉及。
技术实现思路
有鉴于此,本公开提出了一种民航安全领域的本体概念获取技术方案,可依据民航安全领域积累的大量资源,快速准确地构建民航安全领域的本体概念,为民航安全知识的有效融合及保存、民航安全领域知识图谱的构建、以及更深层次的风险分析提供数据支撑。根据本公开的一方面,提供了一种民航安全领域的本体概念获取方法,所述方法包括:根据预设的民航安全词库,从多个民航安全文本中,确定出多个第一候选词;根据所述多个民航安全文本,分别确定各个第一候选词的词频-逆文档频率及领域相关度;根据所述词频-逆文档频率及所述领域相关度,从所述多个第一候选词中,选取多个第二候选词;从预设的参数描述文本中,确定出多个第三候选词,所述参数描述文本包括译码库中的多个参数描述信息,所述译码库作为民航安全领域的快速存取记录器中的数据的译码依据;根据所述参数描述文本及所述译码库,分别确定各个第三候选词的重要度;根据所述重要度,从所述多个第三候选词中,选取至少一个第四候选词;将所述多个第二候选词及所述至少一个第四候选词,确定为民航安全领域的本体概念词。在一种可能的实现方式中,所述根据所述参数描述文本及所述译码库,分别确定各个第三候选词的重要度,包括:对于任一第三候选词,将所述第三候选词在所述参数描述文本中的出现次数与所有第三候选词在所述参数描述文本中的出现次数之和的比值,确定为所述第三候选词的词频;确定所述第三候选词在目标参数描述信息中的位置,所述目标参数描述信息为包括所述第三候选词的参数描述信息;根据所述译码库,确定与所述目标参数描述信息对应的参数的来源;根据所述第三候选词的词频、所述第三候选词在目标参数描述信息中的位置、与所述目标参数描述信息对应的参数的来源及预设权重,确定所述第三候选词的重要度。在一种可能的实现方式中,所述根据所述多个民航安全文本,分别确定各个第一候选词的词频-逆文档频率及领域相关度,包括:根据预设的共现窗口尺寸、所述多个第一候选词及所述多个民航安全文本,建立候选词有向图,所述候选词有向图包括多个节点,所述节点为第一候选词;根据预设的迭代次数及权重确定方式,迭代更新所述候选词有向图中各个节点的权重;将最后一次更新后的各个节点的权重,确定为各个第一候选词的领域相关度。在一种可能的实现方式中,所述根据所述多个民航安全文本,分别确定各个第一候选词的词频-逆文档频率及领域相关度,包括:对于任一第一候选词,将所述第一候选词在目标文本中的出现次数与所有第一候选词在所述目标文本中的出现次数之和的比值,确定为所述第一候选词在所述目标文本中的词频,所述目标文本为包括所述第一候选词的任一民航安全文本;根据包括所述第一候选词的民航安全文本的数量及民航安全文本的总数,确定所述第一候选词的逆文档频率;根据所述第一候选词在所述目标文本中的词频及所述第一候选词的逆文档频率,确定所述第一候选词的词频-逆文档频率。在一种可能的实现方式中,所述根据预设的共现窗尺寸口、所述多个第一候选词及所述多个民航安全文本,建立候选词有向图,包括:将所述多个第一候选词,确定为候选词有向图的多个节点;对于任一第一候选词,根据所述第一候选词在目标文本中的位置及预设的共现窗口尺寸,确定与所述第一候选词同时出现在共现窗口中的至少一个相关候选词,所述目标文本为包括所述第一候选词的民航安全文本,所述相关候选词为所述多个第一候选词中的一个;根据所述第一候选词与所述相关候选词在所述目标文本中的位置关系,确定所述第一候选词对应的节点与所述相关候选词对应的节点之间的有向边。在一种可能的实现方式中,所述根据预设的民航安全词库,从多个民航安全文本中,确定出多个第一候选词,包括:根据预设的民航安全词库,对多个民航安全文本进行分词及词性标注处理,得到第一词语集合;将所述第一词语集合中词性与预设词性一致的词语,确定为多个第一候选词。在一种可能的实现方式中,所述民航安全词库包括民航安全领域的核心词,所述方法还包括:根据民航安全领域的结构化信息,确定民航安全领域的核心词,所述结构化信息包括以预设格式定义的民航安全相关的事件信息及译码库。在一种可能的实现方式中,所述多个民航安全文本,包括飞行手册、事故调查报告、安全政策、统计报告中的至少一种。根据本公开的另一方面,提供了一种民航安全领域的本体概念获取装置,所述装置包括:第一候选词确定模块,用于根据预设的民航安全词库,从多个民航安全文本中,确定出多个第一候选词;词频及相关度确定模块,用于根据所述多个民航安全文本,分别确定各个第一候选词的词频-逆文档频率及领域相关度;第二候选词确定模块,用于根据所述词频-逆文档频率及所述领域相关度,从所述多个第一候选词中,选取多个第二候选词;第三候选词确定模块,用于从预设的参数描述文本中,确定出多个第三候选词,所述参数描述文本包括译码库中的多个参数描述信息,所述译码库作为民航安全领域的快速存取记录器中的数据的译码依据;重要度确定模块,用于根据所述参数描述文本及所述译码库,分别确定各个第三候选词的重要度;第四候选词确定模块,用于根据所述重要度,从所述多个第三候选词中,选取至少一个第四候选词;本体概念词确定模块,用于将所述多个第二候选词及所述至少一个第四候选词,确定为民航安全领域的本体概念词。根据本公开的另一方面,提供了一种民航安全领域的本体概念获取装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:执行上述方法。根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。根据本公开的实施例,能够从多个民航安全文本中,确定出多个第一候选词,并分别确定各个第一候选词的词频-逆文档频率及领域相关度,根据词频-逆文本文档来自技高网...

【技术保护点】
1.一种民航安全领域的本体概念获取方法,其特征在于,所述方法包括:/n根据预设的民航安全词库,从多个民航安全文本中,确定出多个第一候选词;/n根据所述多个民航安全文本,分别确定各个第一候选词的词频-逆文档频率及领域相关度;/n根据所述词频-逆文档频率及所述领域相关度,从所述多个第一候选词中,选取多个第二候选词;/n从预设的参数描述文本中,确定出多个第三候选词,所述参数描述文本包括译码库中的多个参数描述信息,所述译码库作为民航安全领域的快速存取记录器中的数据的译码依据;/n根据所述参数描述文本及所述译码库,分别确定各个第三候选词的重要度;/n根据所述重要度,从所述多个第三候选词中,选取至少一个第四候选词;/n将所述多个第二候选词及所述至少一个第四候选词,确定为民航安全领域的本体概念词。/n

【技术特征摘要】
1.一种民航安全领域的本体概念获取方法,其特征在于,所述方法包括:
根据预设的民航安全词库,从多个民航安全文本中,确定出多个第一候选词;
根据所述多个民航安全文本,分别确定各个第一候选词的词频-逆文档频率及领域相关度;
根据所述词频-逆文档频率及所述领域相关度,从所述多个第一候选词中,选取多个第二候选词;
从预设的参数描述文本中,确定出多个第三候选词,所述参数描述文本包括译码库中的多个参数描述信息,所述译码库作为民航安全领域的快速存取记录器中的数据的译码依据;
根据所述参数描述文本及所述译码库,分别确定各个第三候选词的重要度;
根据所述重要度,从所述多个第三候选词中,选取至少一个第四候选词;
将所述多个第二候选词及所述至少一个第四候选词,确定为民航安全领域的本体概念词。


2.根据权利要求1所述的方法,其特征在于,所述根据所述参数描述文本及所述译码库,分别确定各个第三候选词的重要度,包括:
对于任一第三候选词,将所述第三候选词在所述参数描述文本中的出现次数与所有第三候选词在所述参数描述文本中的出现次数之和的比值,确定为所述第三候选词的词频;
确定所述第三候选词在目标参数描述信息中的位置,所述目标参数描述信息为包括所述第三候选词的参数描述信息;
根据所述译码库,确定与所述目标参数描述信息对应的参数的来源;
根据所述第三候选词的词频、所述第三候选词在目标参数描述信息中的位置、与所述目标参数描述信息对应的参数的来源及预设权重,确定所述第三候选词的重要度。


3.根据权利要求1所述的方法,其特征在于,所述根据所述多个民航安全文本,分别确定各个第一候选词的词频-逆文档频率及领域相关度,包括:
根据预设的共现窗口尺寸、所述多个第一候选词及所述多个民航安全文本,建立候选词有向图,所述候选词有向图包括多个节点,所述节点为第一候选词;
根据预设的迭代次数及权重确定方式,迭代更新所述候选词有向图中各个节点的权重;
将最后一次更新后的各个节点的权重,确定为各个第一候选词的领域相关度。


4.根据权利要求1所述的方法,其特征在于,所述根据所述多个民航安全文本,分别确定各个第一候选词的词频-逆文档频率及领域相关度,包括:
对于任一第一候选词,将所述第一候选词在目标文本中的出现次数与所有第一候选词在所述目标文本中的出现次数之和的比值,确定为所述第一候选词在所述目标文本中的词频,所述目标文本为包括所述第一候选词的任一民航安全文本;
根据包括所述第一候选词的民航安全文本的数量及民航安全文本的总数,确定所述第一候选词的逆文档频率;
根据所述第一候选词在所述目标文本中的词频及所述第一候选词的逆文档频率,确定所述第一候选词的词频-逆文档频率。


5.根...

【专利技术属性】
技术研发人员:焦洋舒平李斌韩静茹周秀婷张潇月张晨
申请(专利权)人:中国民航科学技术研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1