System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种改进的三维文本分析系统技术方案_技高网

一种改进的三维文本分析系统技术方案

技术编号:41293840 阅读:2 留言:0更新日期:2024-05-13 14:43
本发明专利技术属于铁路文本分析技术领域,本发明专利技术公开了一种改进的三维文本分析系统;文本采集模块,用于采集铁路报告事件文本;文本预处理模块,用于将铁路报告事件文本进行预处理,得到预事件文本;特征提取模块,用于根据预事件文本生成事件知识图谱;数据挖掘模块,用于将事件知识图谱进行深度挖掘分析,得到特征图级表示;风险判断模块,用于将特征图级表示输入至预先训练完成的风险判断模型;输出安全风险概率;预设安全风险阈值;若安全风险概率大于等于安全风险阈值,则发送安全警告至铁路维护端;更加精确地判断事件发生事故的概率,对铁路安全事件进行准确预警。

【技术实现步骤摘要】

本专利技术涉及铁路文本分析,更具体地说,本专利技术涉及一种改进的三维文本分析系统


技术介绍

1、申请公开号为cn110472225a的专利公开了一种基于词扩展lda的铁路事故原因分析方法,涉及铁路列车运营安全分析
,该方法基于铁路事故报告文本内容,利用词扩展lda模型提取事故致因相关主题和主题词;根据人因与系统分类方法hfacs对主题特征项进行归类,形成改进的hfacs-ras模型;利用svm对事故报告进行文本分类,确定事故致因数据集;采用卡方检验结合无约束0/1优化实现贝叶斯网络结构优化;利用logistic回归模型进行贝叶斯网络cpt参数估计;基于改进贝叶斯网络确定事故致因分析模型,计算得到导致事故后果的关键致因;基于词扩展lda模型完成事故致因特征提取,确定导致铁路事故发生的因素以及因素对事故后果的影响程度,有利于加深对事故过程的理解并采取措施预防类似事故再次发生。

2、现有的人工逐一分析文本效率低下;铁路运输报告的事件文本数据量大,现有方法需要大量工作人员对文本进行逐一分析判断,工作效率低且容易疲劳;人工分析文本判断事故风险准确性受个人经验和认知水平影响大;对于复杂事件判读准确性较低,常导致事故隐患被忽视,发生重特大事故事件;现有人工分析方法是被动处理已发送报告事件文本,一旦风险判断不及时或不准确,将无法进行事先主动的安全风险防控。

3、鉴于此,本专利技术提出一种改进的三维文本分析系统以解决上述问题。


技术实现思路

1、在为了克服现有技术的上述缺陷,为实现上述目的,本专利技术提供如下技术方案:一种改进的三维文本分析系统,包括:文本采集模块,用于采集铁路报告事件文本;

2、文本预处理模块,用于将铁路报告事件文本进行预处理,得到预事件文本;

3、特征提取模块,用于根据预事件文本生成事件知识图谱;

4、数据挖掘模块,用于将事件知识图谱进行深度挖掘分析,得到特征图级表示;

5、风险判断模块,用于将特征图级表示输入至预先训练完成的风险判断模型;输出安全风险概率;预设安全风险阈值;若安全风险概率大于等于安全风险阈值,则发送安全警告至铁路维护端;各个模块之间通过有线和/或无线的方式进行连接,实现模块间的数据传输。

6、进一步地,所述铁路报告事件文本包括异常信号文本报告、语音信息文本报告、图像视频文本报告和运输文本报告;

7、通过在列车上安装物联网传感器实时监测铁路运输过程中的异常信号,并根据异常信号生成异常信号文本报告;

8、通过在列车上设置语音识别装置,监听并识别铁路运输过程中人员的语音信息,并将语音信息转换为语音信息文本报告;

9、对于铁路运输过程中拍摄的图片/视频通过图像识别算法进行内容分析,并生成文字描述,即为图像视频文本报告;

10、将文本采集模块接入铁路信息系统,获取铁路信息系统记录的运输文本报告。

11、进一步地,所述将铁路报告事件文本进行预处理的方式包括:

12、计算铁路报告事件文本中句子的语法复杂度,将语法复杂度高的句子进行拆分;得到拆分铁路报告事件文本;计算拆分铁路报告事件文本的句子语义相似度,合并句子语义相似度高的句子;得到合并铁路报告事件文本;

13、定义句子有效性评分指标,根据句子有效性评分指标移除合并铁路报告事件文本中无意义句子;得到预事件文本。

14、进一步地,所述语法复杂度的计算方式包括:

15、将铁路报告事件文本中的句子进行句法分析,得到句子的句法树结构;

16、统计句法树结构的基础结构;基础结构树根、主干、分支、节点和树叶;

17、收集n个句子,将句子进行人工标注出句子语法复杂度评分的标签;获取句子的句法树结构;计算句法树结构的基础结构;建立基础结构与人工标注的标签之间的回归模型,通过训练并调节回归模型的参数,使回归模型的预测输出等于标签;得到语法复杂度评分模型;所述回归模型的基础框架为gbdt模型或xgboost模型;

18、将铁路报告事件文本中的句子的句法树结构的基础结构输入至语法复杂度评分模型,输出语法复杂度评分;

19、预设复杂度阈值,将大于或等于语法复杂度评分的句子作为复杂度高的句子;

20、将语法复杂度高的句子进行拆分的方式包括:

21、获取语法复杂度高的句子的句法树结构;标识句法树结构的主干和分支,在句法树的分支交汇处,将句子断开成两个子句。

22、进一步地,所述句子语义相似度的计算方式包括:

23、将拆分铁路报告事件文本中的句子转换为b个词向量;采用注意力机制,将词向量赋予权重,得到句子加权词向量;将句子加权词向量按照对应的词顺序进行串联或拼接得到句向量;计算句向量之间的余弦相似度,作为句子语义相似度;

24、余弦相似度;其中,表示句向量和句向量的点积求和;和分别表示句向量和句向量的l2范数;

25、预设相似度阈值,将余弦相似度大于或等于相似度阈值对应的句向量对提取,作为句子语义相似度高的句子。

26、进一步地,所述句子有效性评分指标包括模型指标和函数指标;

27、模型指标的定义方式包括:

28、构建句子有效性判别模型,句子有效性判别模型的输入为句子的词向量表示,输出为句子有效性概率;

29、收集r组文本数据;并进行人工标注文本数据的有效性标签,有效性标签包括有效句子和无效句子;含有有效性标签的文本数据构成文本数据集;将文本数据集划分为训练集和验证集;

30、将双向gru网络框架作为句子有效性判别模型的基础框架,基础框架包括输入层、双向gru层、全连接层和sigmoid输出层;双向gru层为正向gru层和反向gru层;

31、初始化双向gru层和全连接层的权重参数;将训练集中的文本数据转换为词向量序列,并输入到句子有效性判别模型中;

32、正向gru层和反向gru层分别捕捉词向量序列的隐层状态;将双向gru层的隐层状态拼接得到句子语义表示向量;

33、句子语义表示向量进入全连接层,进行非线性转换;最后sigmoid输出层输出句子有效性概率;

34、定义句子有效性判别模型的损失函数;

35、;其中,为文本数据的有效性标签;为句子有效性判别模型输出的文本数据的有效性概率;为句子有效性判别模型中的所有权重参数;为训练集内文本数据的总数;为文本数据的索引;为第个文本数据的句子表示向量;和为可调权重参数;

36、利用误差反向传播算法更新双向gru层和全连接层的权重参数;在训练集上迭代训练直到句子有效性判别模型的损失函数收敛;将验证集内的文本数据划分p个训练批次;按批次输入句子有效性判别模型,若损失函数在连续p次迭代的过程中不再下降;则得到训练完成的句子有效性判别模型。

37、进一步地,所述函数指标的定义方式包括:

38、定本文档来自技高网...

【技术保护点】

1.一种改进的三维文本分析系统,其特征在于,包括:文本采集模块,用于采集铁路报告事件文本;

2.根据权利要求1所述的一种改进的三维文本分析系统,其特征在于,所述铁路报告事件文本包括异常信号文本报告、语音信息文本报告、图像视频文本报告和运输文本报告;

3.根据权利要求2所述的一种改进的三维文本分析系统,其特征在于,所述将铁路报告事件文本进行预处理的方式包括:

4.根据权利要求3所述的一种改进的三维文本分析系统,其特征在于,所述语法复杂度的计算方式包括:

5.根据权利要求4所述的一种改进的三维文本分析系统,其特征在于,所述句子语义相似度的计算方式包括:

6.根据权利要求5所述的一种改进的三维文本分析系统,其特征在于,所述句子有效性评分指标包括模型指标和函数指标;

7.根据权利要求6所述的一种改进的三维文本分析系统,其特征在于,所述函数指标的定义方式包括:

8.根据权利要求7所述的一种改进的三维文本分析系统,其特征在于,所述生成事件知识图谱的方式包括:

9.根据权利要求8所述的一种改进的三维文本分析系统,其特征在于,所述特征图级表示的获取方式包括:

10.根据权利要求9所述的一种改进的三维文本分析系统,其特征在于,所述风险判断模型的训练方式包括:

...

【技术特征摘要】

1.一种改进的三维文本分析系统,其特征在于,包括:文本采集模块,用于采集铁路报告事件文本;

2.根据权利要求1所述的一种改进的三维文本分析系统,其特征在于,所述铁路报告事件文本包括异常信号文本报告、语音信息文本报告、图像视频文本报告和运输文本报告;

3.根据权利要求2所述的一种改进的三维文本分析系统,其特征在于,所述将铁路报告事件文本进行预处理的方式包括:

4.根据权利要求3所述的一种改进的三维文本分析系统,其特征在于,所述语法复杂度的计算方式包括:

5.根据权利要求4所述的一种改进的三维文本分析系统,其特征在于,所述句子语义相...

【专利技术属性】
技术研发人员:刘羽郭晗毕明艳罗琴瑶贺彪蒯希李胜田沁
申请(专利权)人:深圳市规划和自然资源数据管理中心深圳市空间地理信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1