System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 事件检测方法及装置制造方法及图纸_技高网

事件检测方法及装置制造方法及图纸

技术编号:41327191 阅读:4 留言:0更新日期:2024-05-13 15:04
本申请公开了一种事件检测方法及装置。其中,该方法包括:获取待检测文本并进行预处理,得到其对应的第一文本序列;利用BERT网络对第一文本序列进行编码得到第一上下文表示序列,利用BILSTM网络对第一上下文表示序列进行编码得到第一词向量序列;利用自然语言处理工具确定第一文本序列中各单词间的依存关系,依据依存关系构建目标邻接矩阵;利用多层边缘图注意力网络对第一词向量序列和目标邻接矩阵进行迭代分析得到目标词向量序列;利用全连接层对目标词向量序列中的各个词向量进行分类,得到待检测文本对应的事件触发词和目标事件类型。本申请解决了相关事件检测方案中未考虑节点间的关系标签特征导致检测结果准确率较低的技术问题。

【技术实现步骤摘要】

本申请涉及自然语言处理,具体而言,涉及一种事件检测方法及装置


技术介绍

1、随着互联网技术的快速发展与普及,越来越多的信息依托互联网作为媒介以自然语言文本的形式呈现,尤其在如今大数据时代,新闻、论坛评论、短视频等社交网络场景产生的大量信息导致信息量呈现爆炸式增长。然而,这些非结构化的文本信息通常包含大量的冗余内容,我们需要从海量信息中挖掘有价值的信息。而在挖掘非结构化文本信息中有价值的信息时,通常采用事件检测的方式,事件检测任务能够自动化的从非结构化文本中挖掘出关键性信息,这将有利于事件信息的检索和分析,并作为上游任务服务于其他功能更加丰富的相关系统应用,例如自动问答系统、分析与决策系统等。

2、目前,事件检测领域的研究大多基于图神经网络(graph neural network,gnn)展开,其主要通过gnn的特性来引入依存句法等长距离依赖关系特征。然而,这类方法大多只引入了依存句法中相邻节点之间的结构信息,忽略了节点之间存在的关系标签特征。此外,传统的gnn模型在特征聚合过程中未能考虑到不同的节点和不同关系标签在事件检测任务中的重要程度存在差异性。

3、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本申请实施例提供了一种事件检测方法及装置,以至少解决相关事件检测方案中未考虑节点间的关系标签特征导致检测结果准确率较低的技术问题。

2、根据本申请实施例的一个方面,提供了一种事件检测方法,包括:获取待检测文本,并对待检测文本进行预处理,得到待检测文本对应的第一文本序列;利用bert网络对第一文本序列进行编码,得到第一上下文表示序列,并利用bilstm网络对第一上下文表示序列进行编码,得到第一词向量序列;利用自然语言处理工具确定第一文本序列中各个单词间的依存关系,并依据依存关系构建目标邻接矩阵;利用edge-gat网络对第一词向量序列和目标邻接矩阵进行迭代分析,得到目标词向量序列;利用全连接层对目标词向量序列中的各个词向量进行分类,得到待检测文本对应的事件触发词和目标事件类型。

3、可选地,对待检测文本进行预处理,得到待检测文本对应的第一文本序列,包括:利用分句工具对待检测文本进行分句处理,得到多个句段;利用分词工具依序对各个句段进行分词处理,得到多个单词;将多个单词依序组成第一文本序列。

4、可选地,利用bert网络对第一文本序列进行编码,得到第一上下文表示序列,包括:确定第一文本序列中各个单词的词编号、段编号和位置编号;对各个单词的词编号、段编号和位置编号进行独热编码,并依据编码结果确定各个单词的词向量、段向量和位置向量;将各个单词的词向量、段向量和位置向量输入bert网络进行编码,得到bert网络输出的第一上下文表示序列。

5、可选地,利用bilstm网络对第一上下文表示序列进行编码,得到第一词向量序列,包括:利用bilstm网络提取第一上下文表示序列中各个单词的上下文信息,并依据上下文信息对第一上下文表示序列中的各个单词进行编码,得到第一词向量序列。

6、可选地,利用自然语言处理工具确定第一文本序列中各个单词间的依存关系,并依据依存关系构建目标邻接矩阵,包括:利用自然语言处理工具确定第一文本序列中各个单词间的依存关系及各个单词的依赖标签;以单词为节点、以依存关系为边构造第一文本序列对应的依存关系图,并将依存关系图转化为初始邻接矩阵,其中,具有依存关系的两个单词在初始邻接矩阵中对应的元素值为1;对于初始邻接矩阵中每个值为1的元素,依据元素对应的两个单词的依赖标签确定用于反映两个单词的依存关系的依赖标签向量,并利用依赖标签向量更新元素的值;将初始邻接矩阵中的各个元素值更新完成后,得到目标邻接矩阵。

7、可选地,edge-gat网络,用于对输入词向量序列和输入邻接矩阵进行分析,其中,对于输入词向量序列中的每个词向量,依据输入邻接矩阵确定与词向量具有依存关系的各个邻居词向量以及词向量与各个邻居词向量之间的依赖标签向量;对于每个邻居词向量,依据词向量、邻居词向量及对应的依赖标签向量确定词向量对邻居词向量的初始注意力分数;对所有初始注意力分数进行归一化处理,得到词向量对各个邻居词向量的目标注意力分数;依据各个邻居词向量、对应的各个依赖标签向量和对应的各个目标注意力分数对词向量进行更新;对于每个邻居词向量,依据邻居词向量及词向量对邻居词向量的目标注意力分数、词向量及邻居词向量对词向量的目标注意力分数进行加权求和,得到依赖向量,将依赖向量与邻居词向量对应的依赖标签向量进行拼接,并依据拼接结果更新对应的依赖标签向量;将输入词向量序列中的各个词向量更新完成后,得到输出词向量序列,将输入邻接矩阵中的各个元素值对应的依赖标签向量更新完成后,得到输出邻接矩阵。

8、可选地,利用多层edge-gat网络对第一词向量序列和目标邻接矩阵进行迭代分析,得到目标词向量序列,包括:确定预设层数的edge-gat网络;对于每层edge-gat网络,将上一层edge-gat网络输出的更新后的第一词向量序列和更新后的目标邻接矩阵输入当前层edge-gat网络进行迭代更新,其中,第一层edge-gat网络的输入为初始的第一词向量序列和目标邻接矩阵;将最后一层edge-gat网络输出的更新后的第一词向量序列作为目标词向量序列。

9、可选地,利用全连接层对目标词向量序列中的各个词向量进行分类,得到待检测文本对应的事件触发词和目标事件类型,包括:对于目标词向量序列中的每个词向量,利用全连接层预测词向量对应的事件类型数量以及对应每种事件类型的概率;确定对应事件类型数量最多的词向量为目标词向量,将目标词向量对应的单词作为事件触发词,并确定目标词向量对应的概率最高的事件类型为目标事件类型。

10、根据本申请实施例的另一方面,还提供了一种事件检测装置,包括:预处理模块,用于获取待检测文本,并对待检测文本进行预处理,得到待检测文本对应的第一文本序列;编码模块,用于利用bert网络对第一文本序列进行编码,得到第一上下文表示序列,并利用bilstm网络对第一上下文表示序列进行编码,得到第一词向量序列;构建模块,用于利用自然语言处理工具确定第一文本序列中各个单词间的依存关系,并依据依存关系构建目标邻接矩阵;分析模块,用于利用edge-gat网络对第一词向量序列和目标邻接矩阵进行迭代分析,得到目标词向量序列;分类模块,用于利用全连接层对目标词向量序列中的各个词向量进行分类,得到待检测文本对应的事件触发词和目标事件类型。

11、根据本申请实施例的另一方面,还提供了一种非易失性存储介质,该非易失性存储介质包括存储的计算机程序,其中,非易失性存储介质所在设备通过运行该计算机程序执行上述的事件检测方法。

12、在本申请实施例中,获取待检测文本,并对待检测文本进行预处理,得到待检测文本对应的第一文本序列;利用bert网络对第一文本序列进行编码,得到第一上下文表示序列,并利用bilstm网络对第一上下文表示序列进本文档来自技高网...

【技术保护点】

1.一种事件检测方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对所述待检测文本进行预处理,得到所述待检测文本对应的第一文本序列,包括:

3.根据权利要求2所述的方法,其特征在于,利用BERT网络对所述第一文本序列进行编码,得到第一上下文表示序列,包括:

4.根据权利要求3所述的方法,其特征在于,利用BILSTM网络对所述第一上下文表示序列进行编码,得到第一词向量序列,包括:

5.根据权利要求1所述的方法,其特征在于,利用自然语言处理工具确定所述第一文本序列中各个单词间的依存关系,并依据所述依存关系构建目标邻接矩阵,包括:

6.根据权利要求5所述的方法,其特征在于,

7.根据权利要求6所述的方法,其特征在于,利用多层Edge-GAT网络对所述第一词向量序列和所述目标邻接矩阵进行迭代分析,得到目标词向量序列,包括:

8.根据权利要求1所述的方法,其特征在于,利用全连接层对所述目标词向量序列中的各个词向量进行分类,得到所述待检测文本对应的事件触发词和目标事件类型,包括:

>9.一种事件检测装置,其特征在于,包括:

10.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的计算机程序,其中,所述非易失性存储介质所在设备通过运行所述计算机程序执行权利要求1至8中任意一项所述的事件检测方法。

...

【技术特征摘要】

1.一种事件检测方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对所述待检测文本进行预处理,得到所述待检测文本对应的第一文本序列,包括:

3.根据权利要求2所述的方法,其特征在于,利用bert网络对所述第一文本序列进行编码,得到第一上下文表示序列,包括:

4.根据权利要求3所述的方法,其特征在于,利用bilstm网络对所述第一上下文表示序列进行编码,得到第一词向量序列,包括:

5.根据权利要求1所述的方法,其特征在于,利用自然语言处理工具确定所述第一文本序列中各个单词间的依存关系,并依据所述依存关系构建目标邻接矩阵,包括:

6.根据...

【专利技术属性】
技术研发人员:韩序陆谦沈振勇洪强
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1