一种煤矿安全事故本体概念抽取方法技术

技术编号:20074975 阅读:40 留言:0更新日期:2019-01-15 00:36
本发明专利技术提供了一种煤矿安全事故本体概念抽取方法,该方法将词向量和条件随机场结合起来对煤矿安全事故本体概念进行抽取,充分考虑领域词语的语义特性和领域特性,解决了传统研究方法在语义关系分析方面欠缺的问题以及煤矿安全领域数据管理不统一的问题,提高了知识的重用性。通过实验,证明了相较于较传统的基于CRFs的概念抽取方法,本文提出的方法提高了煤矿安全领域概念抽取的精度。同时,也证明了本文提出的词向量模型,相比传统CBOW模型和skip‑gram模型性能更好。

A Method for Extracting Ontological Concepts of Coal Mine Safety Accidents

The invention provides an ontology concept extraction method for coal mine safety accidents, which combines word vector and conditional random field to extract ontology concepts of coal mine safety accidents, fully considers the semantic characteristics and domain characteristics of domain words, and solves the problems of lack of traditional research methods in semantic relationship analysis and inconsistency of data management in coal mine safety field. It improves the reusability of knowledge. Through experiments, it is proved that the proposed method improves the precision of concept extraction in coal mine safety field compared with the traditional CFRS-based concept extraction method. At the same time, it is proved that the proposed word vector model has better performance than the traditional CBOW model and skip gram model.

【技术实现步骤摘要】
一种煤矿安全事故本体概念抽取方法
本专利技术涉及一种煤矿安全事故本体概念抽取方法,具体涉及一种基于词向量和条件随机场的煤矿安全事故本体概念抽取方法。
技术介绍
煤炭安全生产是一个综合系统工程,涉及到人员、设备、环境、管理四大要素的相互影响和联动,需要将采煤、掘进、机电、通风、地测、防治水等诸多环节和信息整合。本体作为知识库的一种形式,能够有效地描述概念以及概念间的关系,具有共享性和重用性,并支持逻辑推理。针对煤矿安全事故领域中数据的特点,构建具有推理能力、语义一致性的煤矿安全事故本体,形成区域内煤矿静态、动态等多源头全方位异构数据的互联互通,有助于建立区域煤矿信息数据中心,使单一数据变为高融合数据。概念的抽取是本体构建中最关键的一步。概念抽取的方式分为手动和自动构建方式。手动的方式需要领域专家的协助,构建成本高、效率低、主观性强、可移植性弱。因此,如何从文本数据源中自动高效地抽取概念已成为煤矿安全领域本体概念抽取的研究重点。然而,目前的概念抽取方法无法有效表示领域概念丰富的语义特性和领域特性,影响了抽取的效果。
技术实现思路
针对上述技术问题,本专利技术提供一种煤矿安全事故本体概念抽取方本文档来自技高网...

【技术保护点】
1.一种煤矿安全事故本体概念抽取方法,其特征在于,包括以下步骤:从预设网站爬取关于煤矿安全事故的文本数据,所述文本数据包括训练数据和测试数据;对爬取的文本数据进行预处理,并抽取经预处理后的文本数据的特征,得到统计特征向量,所述特征包括当前词、词性、词长和依存句法关系;采用改进的Skip‑gram模型对经抽取特征后的文本数据进行训练以获取词向量;将获取的词向量与煤矿安全领域词典中相应的词向量进行对比,计算出语义相似度,并对计算出的语义相似度进行离散化处理,得到相似度特征;将统计特征向量与相似度特征拼接为一个特征向量,作为条件随机场模型的输入特征;对所述训练数据进行标注;利用标注好的训练数据训练所...

【技术特征摘要】
1.一种煤矿安全事故本体概念抽取方法,其特征在于,包括以下步骤:从预设网站爬取关于煤矿安全事故的文本数据,所述文本数据包括训练数据和测试数据;对爬取的文本数据进行预处理,并抽取经预处理后的文本数据的特征,得到统计特征向量,所述特征包括当前词、词性、词长和依存句法关系;采用改进的Skip-gram模型对经抽取特征后的文本数据进行训练以获取词向量;将获取的词向量与煤矿安全领域词典中相应的词向量进行对比,计算出语义相似度,并对计算出的语义相似度进行离散化处理,得到相似度特征;将统计特征向量与相似度特征拼接为一个特征向量,作为条件随机场模型的输入特征;对所述训练数据进行标注;利用标注好的训练数据训练所述条件随机场模型,得到领域概念抽取的模型;利用得到的领域概念抽取的模型在所述测试数据上进行概念的标注任务,得到概念抽取的结果。2.根据权利要求1所述的方法,其特征在于,所述文本数据包括煤矿事故案例和煤矿事故事后分析报告。3.根据权利要求1所述的方法,其特征在于,所述改进的Skip-gram模型通过下述公式(1)和(2)表示:x=[e(wi-(n-1));…e(wi-(n-1)/2-1);…e(wi)]...

【专利技术属性】
技术研发人员:刘秀磊刘思含刘旭红李红臣崔展奇
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1