一种基于类别和实例增强的文本多事件检测方法与装置制造方法及图纸

技术编号:31085359 阅读:34 留言:0更新日期:2021-12-01 12:37
本申请涉及一种基于类别和实例增强的文本多事件检测方法与装置,其中,方法包括:获取待检测文本的文本表示数据。根据类别标签表示和文本表示数据,确定出待检测文本的每个字符的各第一中间结果,第一中间结果表示出其对应的字符是事件之一对应的触发词的概率。根据对各第一中间结果处理得到的综合文本特征和文本表示数据,得到待检测文本中的每个字符相对于每个事件的检测结果。在待检测本文对应于若干个事件的情况下,基于事件和触发词之间的对应关系,能够对一待检测文本中的表示出的多个事件进行检测,以基于事件之间的相关性,提升事件检测的准确率。事件检测的准确率。事件检测的准确率。

【技术实现步骤摘要】
一种基于类别和实例增强的文本多事件检测方法与装置


[0001]本申请涉及文本数据处理
,尤其涉及一种基于类别和实例增强的文本多事件检测方法与装置。

技术介绍

[0002]随着互联网技术的发展,越来越多的用户在互联网上发布各类文本信息。研究如何从海量的文本中自动化地检测各类事件的发生,将对金融安全、医疗安全和网络安全等领域起到重要的基础性作用。因此,面向互联网自由文本的事件检测任务逐渐成为文本信息抽取与挖掘的热点研究问题。
[0003]然而,本文检测受制于多方面因素的影响,在相关技术中,鲜有能较为准确的检测出文本表示出的事件的方法。

技术实现思路

[0004]本申请提供了一种基于类别和实例增强的文本多事件检测方法与装置,以解决现有技术中存在的事件检测准确率较低的技术问题。
[0005]第一方面,本申请提供了一种基于类别和实例增强的文本多事件检测方法,所述方法包括:
[0006]获取待检测文本的文本表示数据,其中,所述待检测文本对应于若干个事件,事件与触发词一一对应,所述触发词用于检测出其对应的事件;根本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于类别和实例增强的文本多事件检测方法,其特征在于,所述方法包括:获取待检测文本的文本表示数据,其中,所述待检测文本对应于若干个事件,事件与触发词一一对应,所述触发词用于检测出其对应的事件;根据类别标签表示和所述文本表示数据,确定出所述待检测文本的每个字符的各第一中间结果,其中,所述类别标签表示标识出事件的类别,所述第一中间结果表示出其对应的字符是所述事件之一对应的触发词的概率;根据对各第一中间结果处理得到的综合文本特征和所述文本表示数据,得到所述待检测文本中的每个字符相对于每个所述事件的检测结果,其中,所述检测结果表示出所述字符分别是各所述事件的触发词的概率。2.根据权利要求1所述的方法,其特征在于,所述方法采用多事件检测模型,所述多事件检测模型包括图卷积神经网络,其中,根据类别标签表示和所述文本表示数据,确定出所述待检测文本的每个字符的第一中间结果之前,所述方法还包括:确定目标检测的各事件;根据所述事件之间的层级关系、共现关系以及层级关系和共现关系之间的折中系数,构建类别邻接矩阵;将所述类别邻接矩阵输入所述图卷积神经网络,得到所述类别标签表示。3.根据权利要求1所述的方法,其特征在于,根据类别标签表示和所述文本表示数据,确定出所述待检测文本的每个字符的各第一中间结果,包括:对所述类别标签表示进行线性变换,得到每一事件的触发词标签表示,其中,所述触发词标签表示表示出其对应的事件的触发词在文本中的位置;针对每一字符,分别根据每一事件的触发词标签表示,确定所述字符的第一中间结果。4.根据权利要求1所述的方法,其特征在于,所述第一中间结果包括:起始中间子结果和结束中间子结果,其中,所述起始第一中间结果表示出所述字符是其对应的触发词的起始字符的概率,所述结束第一中间结果表示出所述字符是其对应的触发词的结束字符的概率。5.根据权利要求1所述的方法,其特征在于,根据对各第一中间结果处理得到的综合文本特征和所述文本表示数据,得到所述待检测文本中的每个字符相对于每个所述事件的检测结果之前,所述方法还包括:针对每个事件,根据各字符对应所述事件的第一中间结果,对每个字符对应所述事件的第一中间结果进行归一化处理,得到所述字符对应于所述事件的归一化处理结果;将所述字符对应的归一化处理结果、和所述文本表示数据中对应于所述字符的分量的乘积,作为所述事件对应于所述字符的第二中间结果;根据所述事件对应各字符的各第二中间结果之和,得到所述事件的综合文本特征。6.根据权利要求1所述的方法,其特征在于,根据对各第一中间结果处理得到的综合文本特征和所述文本表示数据,得到所述待检测文本中的每个字符相对于每个所述事件的检测结果,包括:针对每个事件,根据每个字符在所述文本表示数据中对应的分量、以及所述事件的综合文本特征,得到所述事件的检测结果。7.一种用于类别和实例增强的文本多事件检测的模型训练方法,其特征在于,所述多
事件检测的模型包括文本表示子模型、第一检测子模型以及第二检测子模型,所述方法包...

【专利技术属性】
技术研发人员:郭舒王丽宏盛傢伟孙睿贺敏李晨黑一鸣李倩黄洪仁钟盛海
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1