【技术实现步骤摘要】
图谱构建方法、事故分类方法、装置、计算机设备和介质
本申请涉及数据处理
,特别是涉及一种图谱构建方法、事故分类方法、装置、计算机设备和介质。
技术介绍
近年来,随着互联网的发展,网络上汇集了大量关于危险化学品事故的数据信息,然而,上述信息主要是由文本构成的非结构化数据,具有数据量难以扩充、关键词内容相似度高等特点,难以训练分类器基于文本中的词语特征进行分类。所以,对危险化学品事故文本信息进行准确分类需要建立在对文本信息理解的基础之上,而对文本信息的理解需要依靠大量的常识知识和领域知识,而上述知识的表示需要借助知识图谱来实现。现有的领域知识图谱构建方法有两种:一种是自顶向下的构建方式,一种是自底向上的构建方式。自顶向下的构建方式指的是预先为知识库定义好本体结构或数据模式,然后再将结构化知识库中的实体加入到知识库中。这种方法需要花费巨大的人力和时间成本。自底向上的构建方式指的是首先利用相关技术把开放链接数据和在线百科数据等结构化数据中有用的实体提取出来,从中选择置信度较高的实体添加到知识库中,在此基础上构建出顶层本 ...
【技术保护点】
1.一种化学品事故知识图谱构建方法,其特征在于,所述方法包括:/n根据元数据之间的逻辑关联关系构建本体结构;其中,所述元数据包括表征危险化学品名称、危险化学品类别、危险特征以及危险特征诱因中至少两种的词语;/n对化学品事故的语料数据进行聚类,得到至少一个聚类簇;其中,每个所述聚类簇包括若干具有特征关联关系的词语,所述特征关联关系包括相近关联关系、相反关联关系以及因果关联关系中的至少一种;/n根据所述特征关联关系将所述聚类簇与所述本体结构中的元数据关联,得到所述化学品事故知识图谱。/n
【技术特征摘要】
1.一种化学品事故知识图谱构建方法,其特征在于,所述方法包括:
根据元数据之间的逻辑关联关系构建本体结构;其中,所述元数据包括表征危险化学品名称、危险化学品类别、危险特征以及危险特征诱因中至少两种的词语;
对化学品事故的语料数据进行聚类,得到至少一个聚类簇;其中,每个所述聚类簇包括若干具有特征关联关系的词语,所述特征关联关系包括相近关联关系、相反关联关系以及因果关联关系中的至少一种;
根据所述特征关联关系将所述聚类簇与所述本体结构中的元数据关联,得到所述化学品事故知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述根据元数据之间的逻辑关联关系构建本体结构,包括:
根据所述元数据中表征所述危险化学品名称的词语和表征所述危险化学品名称所属的所述危险化学品类别的词语进行所属关联,得到所属关联关系;
根据所述元数据中表征所述危险化学品类别的词语和表征所述危险化学品类别对应的所述危险特征诱因的词语进行条件关联,得到条件关联关系;
根据所述元数据中表征所述危险化学品类别的词语和表征所述危险化学品类别具备的所述危险特征的词语进行属性关联,得到属性关联关系;
根据所述所属关联关系、所述条件关联关系以及所述属性关联关系构建所述本体结构。
3.根据权利要求1所述的方法,其特征在于,所述对化学品事故的语料数据进行聚类,得到至少一个聚类簇,包括:
根据中文分词算法对每一化学品事故的语料数据进行中文分词,对应得到分词列表;其中,所述分词列表中包括按照在所述化学品事故的语料数据的出现顺序排列的词语;
根据所述分词列表中的词语之间以及所述分词列表之间的词语之间的临近关系,采用预设的图嵌入算法构建多维空间结构;其中,所述临近关系可根据所述分词列表中词语的排列顺序确定;
将所述多维空间结构转化为二维平面结构;
对所述二维平面结构中的所述词语进行聚类操作,得到至少一个聚类簇。
4.根据权利要求3所述的方法,其特征在于,所述将所述多维空间结构转化为二维平面结构,包括:
采用t分布随机邻域嵌入降维算法将所述多维空间结构转化为二维平面结构。
5.根据权力要求3所述的方法,其特征在于,所述对所述二维平面结构中的所述词语进行聚类操作,得到至少一个聚类簇,包括:
采用层次聚类算法将二维平面结构...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。