基于双向LSTM的突发事件识别方法及装置制造方法及图纸

技术编号:31824615 阅读:7 留言:0更新日期:2022-01-12 12:48
本发明专利技术涉及一种机器学习技术领域,是一种基于双向LSTM的突发事件识别方法及装置,前者包括建立语料文本集,对语料进行预处理;提取语料文本集中语料的六个特征向量和WE特征向量;将六个特征向量和WE特征向量融合,形成融合特征;将融合特征作为双向LSTM突发事件识别模型输入,对突发事件进行识别。本发明专利技术基于双向LSTM突发事件识别模型进行突发事件识别,提升突发事件识别准确率。同时引入WE特征项,通过事件句中各词空间定位关系来表述语义层次上的联系,提取文本事件句结构的主要信息,进一步提高模型对于突发事件的识别能力。一步提高模型对于突发事件的识别能力。一步提高模型对于突发事件的识别能力。

【技术实现步骤摘要】
基于双向LSTM的突发事件识别方法及装置


[0001]本专利技术涉及一种机器学习
,是一种基于双向LSTM的突发事件识别方法及装置。

技术介绍

[0002]突发事件即指在一定区域内,无预期地发生,并对生命或财产构成威胁,对社会产生负面影响的事件。突发事件本身具备发生前不可预期,发生后受人关注的性质。突发事件识别的研究对自动问答,故障诊断等技术的进一步发展起到一定的推动作用,同时可为突发事件的事前防范做好预期,事后处理提供参照。随着对事件识别研究的不断深入,如何有效的获取事件结构以及语义上下文等特征在基于深度学习技术的事件识别中起着至关重要的作用。
[0003]目前,基于机器学习的算法模型在突发事件识别的研究中已占据主导地位,大多采用对事件语料集依赖性强、人工语料库规模大的监督型机器学习算法。这种算法通过丰富的事件语料训练集学习抽取事件的隐含特征,但如果训练语料不充分或者事件语料集类别单一,将会严重影响各类突发事件的识别结果正确性和有效性。

技术实现思路

[0004]本专利技术提供了一种基于双向LSTM的突发事件识别方法及装置,克服了上述现有技术之不足,其能有效解决突发事件识别方法存在的对于人工语料依赖度高,模型识别稳定性弱的问题。
[0005]本专利技术的技术方案之一是通过以下措施来实现的:一种基于双向LSTM的突发事件识别方法,包括:
[0006]建立语料文本集,对语料进行预处理;
[0007]提取语料文本集中语料的六个特征向量和WE特征向量;
[0008]将六个特征向量和WE特征向量融合,形成融合特征;
[0009]将融合特征作为双向LSTM突发事件识别模型输入,对突发事件进行识别;其中双向LSTM突发事件识别模型为使用多组数据通过机器学习训练得出的,多组数据包括第一类数据和第二类数据,第一类数据中的每组数据均包括:包括突发事件的语料事件句和标识该语料事件句包括突发事件的标签;第二类数据中的每组数据均包括:不包括突发事件的语料事件句和标识该语料事件句不包括突发事件的标签。
[0010]下面是对上述专利技术技术方案的进一步优化或/和改进:
[0011]上述双向LSTM突发事件识别模型包括Bi

LSTM模型和分类器;将融合特征作为双向LSTM突发事件识别模型输入,对突发事件进行识别,包括:
[0012]将六个特征向量和WE特征向量的融合结果作为Bi

LSTM模型的输入,抽取事件句中各词局部抽象特征,从正向和反向对事件句进行高阶特征捕获;
[0013]输出的高阶特征作为LSTM网络部分的输入,LSTM网络部分挖掘围绕触发词展开的
抽象序列关系特征,形成具有依赖关系的抽象序列特征集合;
[0014]采用分类器对抽象序列特征集合进行分类,完成的突发事件识别。
[0015]上述提取语料文本集中语料的六个特征向量,包括:
[0016]对语料文本集中语料包含的事件句进行分词,获取每个词的词干和词干构型;
[0017]提取各个词词干的词特征块、词法特征块和触发词,并以触发词为中心提取各个词在事件句上下文中所承担的上下文特征块;
[0018]对词干构型中的附加成分进行切分,获取事件特征、语义特征以及句法特征。
[0019]上述提取语料文本集中语料的WE特征向量包括选取语料中的事件句,计算事件句中词之间的语义相似度,获取每个词在低维空间中语义的分布情况,将语义相似度作为一个WE特征项。
[0020]上述对语料进行预处理包括去噪处理,去噪处理包括去除语料文本集中内容重复、事件句不完整、无明显事件句特征、空白语料文本。
[0021]本专利技术的技术方案之二是通过以下措施来实现的:一种基于双向LSTM的突发事件识别装置,包括:
[0022]文本集建立单元,建立语料文本集,对语料进行预处理;
[0023]特征提取单元,提取语料文本集中语料的六个特征向量和WE特征向量;
[0024]融合单元,将六个特征向量和WE特征向量融合,形成融合特征;
[0025]识别单元,将融合特征作为双向LSTM突发事件识别模型输入,对突发事件进行识别;其中双向LSTM突发事件识别模型为使用多组数据通过机器学习训练得出的,多组数据包括第一类数据和第二类数据,第一类数据中的每组数据均包括:包括突发事件的语料事件句和标识该语料事件句包括突发事件的标签;第二类数据中的每组数据均包括:不包括突发事件的语料事件句和标识该语料事件句不包括突发事件的标签。
[0026]本专利技术引入WE特征项,利用其在词语语义表示方面具有对文本事件句中各词的抽象化重构具有相对良好的性能,通过事件句中各词空间定位关系来表述语义层次上的联系,提取文本事件句结构的主要信息,进一步提高模型对于突发事件的识别能力;同时六个特征向量和WE特征向量融合,作为双向LSTM突发事件识别模型的输入,有效提高了模型识别精确度。本专利技术基于双向LSTM突发事件识别模型进行突发事件识别,提升突发事件识别准确率。
附图说明
[0027]附图1为本专利技术实施例1的方法流程图。
[0028]附图2为本专利技术实施例2的结构示意图。
具体实施方式
[0029]本专利技术不受下述实施例的限制,可根据本专利技术的技术方案与实际情况来确定具体的实施方式。
[0030]下面结合实施例及附图对本专利技术作进一步描述:
[0031]实施例1:如附图1所示,本专利技术实施例公开了一种基于双向LSTM的突发事件识别方法,包括:
[0032]步骤S101,建立语料文本集,对语料进行预处理。
[0033]上述语料文本集中的语料文本可选取于多个网站,例如天山网、人民网的网页;并可利用Nutch等工具获取网页,并提取网页文件中的语料,形成语料文本集;
[0034]上述对语料进行预处理包括去噪处理,去噪处理包括去除语料文本集中内容重复、事件句不完整、无明显事件句特征、空白语料文本。
[0035]步骤S102,提取语料文本集中语料的六个特征向量和WE特征向量。
[0036]如表1所示,上述提取语料文本集中语料的六个特征向量,包括:
[0037]1、对语料文本集中语料包含的事件句进行分词,获取每个词的词干和词干构型;
[0038]2、提取各个词词干的词特征块、词法特征块和触发词,并以触发词为中心提取各个词在事件句上下文中所承担的上下文特征块;
[0039]3、对词干构型中的附加成分进行切分,获取事件特征、语义特征以及句法特征。
[0040]上述提取语料文本集中语料的WE特征向量使用Word Embedding算法,WordEmbedding算法使用Word2vec工具进行训练,选择Skip

gram+HS模型作为训练框架,通过计算词之间的余弦相似度表示文本语义上的相关程度(即为语义相似度),由此准确的获取每个词在低维空间中语义的分布情况。...

【技术保护点】

【技术特征摘要】
1.一种基于双向LSTM的突发事件识别方法,其特征在于,包括:建立语料文本集,对语料进行预处理;提取语料文本集中语料的六个特征向量和WE特征向量;将六个特征向量和WE特征向量融合,形成融合特征;将融合特征作为双向LSTM突发事件识别模型输入,对突发事件进行识别;其中双向LSTM突发事件识别模型为使用多组数据通过机器学习训练得出的,多组数据包括第一类数据和第二类数据,第一类数据中的每组数据均包括:包括突发事件的语料事件句和标识该语料事件句包括突发事件的标签;第二类数据中的每组数据均包括:不包括突发事件的语料事件句和标识该语料事件句不包括突发事件的标签。2.根据权利要求1所述的基于双向LSTM的突发事件识别方法,其特征在于,所述双向LSTM突发事件识别模型包括Bi

LSTM模型和分类器;将融合特征作为双向LSTM突发事件识别模型输入,对突发事件进行识别,包括:将六个特征向量和WE特征向量的融合结果作为Bi

LSTM模型的输入,抽取事件句中各词局部抽象特征,从正向和反向对事件句进行高阶特征捕获;输出的高阶特征作为LSTM网络部分的输入,LSTM网络部分挖掘围绕触发词展开的抽象序列关系特征,形成具有依赖关系的抽象序列特征集合;采用分类器对抽象序列特征集合进行分类,完成的突发事件识别。3.根据权利要求1或2所述的基于双向LSTM的突发事件识别方法,其特征在于,所述提取语料文本集中语料的六个特征向量,包括:对语料文本集中语料包含的事件句进行分词,获取每个词的词干和词干构型;提取各个词词干的词特征块、词法特征块和触发词,并以触发词为中心提取各个词在事件句上下文中所承担的上下文特征块;对词干构型中的附加成分进行切分,获取事件特征、语义特征以及句法特征。4.根据权利要求1或2所述的基于双向LSTM的突发事件识别方法,其特征在于,所述提取语料文本集中语料的WE特征向量包括选取语料中的事件句,计算事件句中词之间的语义相似度,...

【专利技术属性】
技术研发人员:黎红郭江涛马梅芳马天福马斌马文龙摆小军吕娜李德高
申请(专利权)人:国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1