System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多层语义图卷积神经网络交通事件知识图谱构建方法技术_技高网

基于多层语义图卷积神经网络交通事件知识图谱构建方法技术

技术编号:39959165 阅读:9 留言:0更新日期:2024-01-08 23:54
本发明专利技术提出了一种基于多层语义图卷积神经网络交通事件知识图谱构建方法,其步骤如下:采用自顶向下的方式定义事件本体的分层体系,设计本体模型;从公开数据集官网上下载中英文数据集,收集并整理真实的高校交通风险事件的文本和图像数据,构建知识图谱数据集;以OneRel模型为基础模型,构建事件抽取模型;利用多层语义图卷积神经网络学习知识图谱数据集的全局语义和句法图嵌入表示信息,训练事件抽取模型;构建高校交通安全事件知识图谱并进行可视化展示。本发明专利技术融合全局语义依存分析图和句法分析图,提高远距离实体的精确识别;构建多层语义图卷积神经网络捕获更深层次的实体关系语义隐藏信息,构建出较完整的高校交通安全事件知识图谱。

【技术实现步骤摘要】

本专利技术涉及事件知识图谱构建方法的,尤其涉及一种基于多层语义图卷积神经网络交通事件知识图谱构建方法


技术介绍

1、随着国内高校数量和招生人数的快速扩张,高校校内师生数量日益递增,进而导致了高校校内的交通事故频发,随之积累了较多的高校交通安全事件数据,利用这些数据对问题进行分析和管理,对高校师生生命安全防范具有重要意义。现有研究中关于高校交通安全事件的知识图谱构建方法研究较少,并且对高校交通事件知识图谱的本体模型构建研究欠缺。其次现有的事件信息抽取方法处理三元组重叠问题能力有限及在关系抽取中存在实体边界模糊,进而会造成抽取误差、知识冗余等问题。对高校交通事件资源数据进行智能化处理及分析,既是网络舆情监管的迫切需求,也是舆情分析领域事件知识图谱构建的研究难点之一。

2、随着网络舆情分析的需求日益多样化,对于高校交通事件知识图谱的构建技术研究,已经不能够满足对当前网络舆情领域监管的新需求。传统的知识图谱构建模型中描述的知识是静态的、确定的事实,更多聚焦知识问答、实体画像等问题。但是在舆情监测和文本智能化分析、推理等方面显得有些乏力。在实际网络监管场景中,采用爬虫和事件知识图谱技术构建高校交通风险事件知识图谱,实现对风险事件数据的可视化展示与智能分析更具有参考价值。现有技术还存在的问题如下:

3、(1)当前关于高校校内交通安全事件的知识图谱构建技术研究较少,此外现有方法针对校内交通事件知识图谱的本体模型构建研究欠缺。其次网络社交媒体中关于高校校内交通事件信息表述形式不规范和多源知识信息存在低质量数据问题,进一步导致从中构建校内交通事件知识图谱的难度较大。

4、(2)高校校内交通安全事件知识图谱构建的核心内容是实体关系三元组。现有的方法侧重于通用领域的事件三元组抽取,然而对真实中文事件案例中的事件三元组抽取效果不佳。此外现有的实体关系联合抽取方法处理三元组重叠问题能力有限及在关系抽取中存在实体边界模糊,进而会造成抽取误差、知识冗余等问题。

5、(3)现有研究大多都是针对网络社交媒体中的文本数据,并未利用校内交通事件案例中图片信息数据辅助构建丰富的语义事件知识图谱。其次现有模型方法大多在公开的英文数据集上实验并验证改进模型的性能,较少研究考虑在中文数据集上进行实验及评测。

6、申请号为202310131194.8的专利技术专利公开了一种基于多源数据融合的交通知识图谱的构建方法,包括:步骤s1:基于交通图像大数据获取交通图像模态数据,所述交通图像模态数据包括车辆颜色信息、车型信息以及车速信息;步骤s2:基于路网数据获取交通文本模态数据,所述交通文本模态数据包括交通路口过车数据、交通路口数据、交通路段数据以及车道数据;步骤s3:根据交通图像模态数据与交通文本模态数据进行实体定义,并匹配实体属性与实体间的关系获取知识图谱数据层;步骤s4:根据垂直领域知识图谱对所述知识图谱数据层进行分类处理获取结构化数据和半结构化数据,并根据所述结构化数据和半结构化数据建立交通知识图谱。上述专利技术大大降低了数据建模的工作负担,但是,当前高校校内交通事故频发,上述专利技术并没有用于高校网络舆情监测,也没有考虑构建交通事件本体模型,导致不能够将分散的校内交通事件知识进行结构化表示,此外基于路网数据获取到的文本模态数据识别率较低,在中文文本的事件信息抽取效果上不太理想。


技术实现思路

1、针对现有知识图谱构建方法存在处理三元组重叠问题能力有限及在关系抽取中存在实体边界模糊,会造成抽取误差、知识冗余的技术问题,本专利技术提出一种基于多层语义图卷积神经网络交通事件知识图谱构建方法,利用多层语义图卷积神经网络捕获更深层次的实体关系语义隐藏信息,将关于事件的图像和文本数据融合在一起作为模型输入并训练,在网络舆情分析场景下知识图谱构建预测及分析中得到较好效果,能够有效辅助舆情监管部门监控敏感信息。

2、为了达到上述目的,本专利技术的技术方案是这样实现的:一种基于多层语义图卷积神经网络交通事件知识图谱构建方法,其步骤如下:

3、步骤1:采用自顶向下的方式定义事件本体的分层体系,设计高校交通安全事件知识图谱的本体模型;

4、步骤2:从公开数据集官网上下载中英文数据集,收集并整理真实的高校交通风险事件的文本和图像数据,构建真实案例的知识图谱数据集;

5、步骤3:以onerel模型为基础模型,构建高校校内交通安全事件知识图谱的事件抽取模型;利用多层语义图卷积神经网络学习知识图谱数据集的全局语义和句法图嵌入表示信息,输入事件抽取模型进行训练;

6、步骤4:构建高校交通安全事件知识图谱并进行可视化展示。

7、优选地,所述高校交通安全事件知识图谱的本体包括实体类型o(e)、属性类型o(s)和关系类型o(r),hkg={o(e),o(r),o(s)}表示由实体类型、属性类型和关系类型组成的集合,体现为实体类型和属性类型之间的层级关系,以知识图谱三元组的形式展示;

8、所述高校交通安全事件知识图谱的本体模型是以事件基本属性、事故类型、模型方法、事件处置措施为核心要素,构建核心要素之间的语义知识关联;根据每个本体类的感念层次进行领域划分:事件基本属性包括事件发生地点、事件发生时间、事件伤亡情况和事件人员信息,事故类型包括二轮车事故、三轮车事故和汽车事故,模型方法包括统计分析和机器学习,事故处置措施包括事故处置部门、事故处置结果和事故发生原因。

9、优选地,所述中英文数据集包括nyt数据集、webnlg数据集、duie数据集;基于风险关键词,从官方网址、微博、百度新闻网页收集并整理真实的高校校内交通风险事件的文本和图像最为知识图谱事件抽取数据集中的一部分;数据类型为结构化或非结构化的文本数据和图像信息;采用bio标记法对文本数据进行标注,采用vott标注软件对图像数据进行标注,建立真实案例的中文数据集;

10、采用爬虫技术处理中文数据集的文本,利用pp-ocrv3模型提取中文数据集的图像中的文本信息,作为事件抽取模型的训练数据;pp-ocrv3模型提取图像中的文本信息的流程为:pp-ocrv3模型首先对输入的图像进行预处理,pp-ocrv3模型中的文字检测模块将待检测区域以坐标的形式标记,然后文字识别模块识别标记坐标区域的文字信息并输出识别后的文字信息,最后保存文本信息。

11、优选地,所述步骤3中事件抽取模型的实现方法为:以onerel模型为基础,在初始向量生成阶段融入句子的全局依存语义和句法图嵌入表示;采用bert模型和bi-lstm网络获取文本的语义信息作为输入向量he;构建多层语义图卷积神经网络学习全局依存语义和句法图嵌入表示的信息,捕获更深层次的实体关系语义隐藏信息;将学习到的图嵌入语义向量ge和输入向量he拼接得到新的序列向量vn,新的序列向量vn经过图混合池化层捕获全局范围的语义信息;经过模型输出层得到语句的每个字符的标签,输出最终结果。

12、优选地,设计多特征融合注意力机制增强事件抽取模型中三本文档来自技高网...

【技术保护点】

1.一种基于多层语义图卷积神经网络交通事件知识图谱构建方法,其特征在于,其步骤如下:

2.根据权利要求1所述的基于多层语义图卷积神经网络交通事件知识图谱构建方法,其特征在于,所述高校交通安全事件知识图谱的本体包括实体类型O(E)、属性类型O(S)和关系类型O(R),HKG={O(E),O(R),O(S)}表示由实体类型、属性类型和关系类型组成的集合,体现为实体类型和属性类型之间的层级关系,以知识图谱三元组的形式展示;

3.根据权利要求1所述的基于多层语义图卷积神经网络交通事件知识图谱构建方法,其特征在于,所述中英文数据集包括NYT数据集、WebNLG数据集、DUIE数据集;基于风险关键词,从官方网址、微博、百度新闻网页收集并整理真实的高校校内交通风险事件的文本和图像最为知识图谱事件抽取数据集中的一部分;数据类型为结构化或非结构化的文本数据和图像信息;采用BIO标记法对文本数据进行标注,采用Vott标注软件对图像数据进行标注,建立真实案例的中文数据集;

4.根据权利要求1或3所述的基于多层语义图卷积神经网络交通事件知识图谱构建方法,其特征在于,所述步骤3中事件抽取模型的实现方法为:以OneRel模型为基础,在初始向量生成阶段融入句子的全局依存语义和句法图嵌入表示;采用BERT模型和Bi-LSTM网络获取文本的语义信息作为输入向量He;构建多层语义图卷积神经网络学习全局依存语义和句法图嵌入表示的信息,捕获更深层次的实体关系语义隐藏信息;将学习到的图嵌入语义向量Ge和输入向量He拼接得到新的序列向量Vn,新的序列向量Vn经过图混合池化层捕获全局范围的语义信息;经过模型输出层得到语句的每个字符的标签,输出最终结果。

5.根据权利要求4所述的基于多层语义图卷积神经网络交通事件知识图谱构建方法,其特征在于,设计多特征融合注意力机制增强事件抽取模型中三元组分类的准确性,为候选实体在实体抽取阶段赋予一个较高的权重;

6.根据权利要求5所述的基于多层语义图卷积神经网络交通事件知识图谱构建方法,其特征在于,所述全局依存语义和句法图嵌入表示的获取方法为:采用LTP工具对输入语句进行预处理,得到预处理句子序列的词性标注信息和句法依存信息,句法依存分析确定句子的句法结构或者句子中词汇之间的依存语义关系;采用预训练模型得到全局依存语义和句法图嵌入表示;

7.根据权利要求5或6所述的基于多层语义图卷积神经网络交通事件知识图谱构建方法,其特征在于,所述图混合池化层的实现方法为:采用图混合池化操作对拼接后的序列向量Vn捕获全局范围信息,得到向量表示:

8.根据权利要求7所述的基于多层语义图卷积神经网络交通事件知识图谱构建方法,其特征在于,语句S的目标三元组集合Y为:

9.根据权利要求4所述的基于多层语义图卷积神经网络交通事件知识图谱构建方法,其特征在于,在全局语义和句法依存图嵌入表示层、多特征注意力机制层采用交叉熵损失函数计算训练过程中的损失Losstotal=Lossg+αLossa,然后为每一层的损失分配权重;每一层的损失分配权重是由反向传播算法实现的;其中,Lossg代表全局语义和句法依存图嵌入表示层的损失,α代表多特征注意力机制层损失的权重,Lossa代表多特征注意力机制层损失;

10.根据权利要求4所述的基于多层语义图卷积神经网络交通事件知识图谱构建方法,其特征在于,所述步骤4的实现方法为:利用训练完成的事件抽取模型对多源异构数据进行三元组抽取,构建出高校交通事件知识图谱,采用Neo4J图数据库对存入的三元组进行可视化。

...

【技术特征摘要】

1.一种基于多层语义图卷积神经网络交通事件知识图谱构建方法,其特征在于,其步骤如下:

2.根据权利要求1所述的基于多层语义图卷积神经网络交通事件知识图谱构建方法,其特征在于,所述高校交通安全事件知识图谱的本体包括实体类型o(e)、属性类型o(s)和关系类型o(r),hkg={o(e),o(r),o(s)}表示由实体类型、属性类型和关系类型组成的集合,体现为实体类型和属性类型之间的层级关系,以知识图谱三元组的形式展示;

3.根据权利要求1所述的基于多层语义图卷积神经网络交通事件知识图谱构建方法,其特征在于,所述中英文数据集包括nyt数据集、webnlg数据集、duie数据集;基于风险关键词,从官方网址、微博、百度新闻网页收集并整理真实的高校校内交通风险事件的文本和图像最为知识图谱事件抽取数据集中的一部分;数据类型为结构化或非结构化的文本数据和图像信息;采用bio标记法对文本数据进行标注,采用vott标注软件对图像数据进行标注,建立真实案例的中文数据集;

4.根据权利要求1或3所述的基于多层语义图卷积神经网络交通事件知识图谱构建方法,其特征在于,所述步骤3中事件抽取模型的实现方法为:以onerel模型为基础,在初始向量生成阶段融入句子的全局依存语义和句法图嵌入表示;采用bert模型和bi-lstm网络获取文本的语义信息作为输入向量he;构建多层语义图卷积神经网络学习全局依存语义和句法图嵌入表示的信息,捕获更深层次的实体关系语义隐藏信息;将学习到的图嵌入语义向量ge和输入向量he拼接得到新的序列向量vn,新的序列向量vn经过图混合池化层捕获全局范围的语义信息;经过模型输出层得到语句的每个字符的标签,输出最终结果。

5.根据权利要求4所述的基于多层语义图卷积神经网络...

【专利技术属性】
技术研发人员:魏富鹏刘星施歌乔亚琼郑秋生姜维陈紫薇权高原
申请(专利权)人:华北水利水电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1