【技术实现步骤摘要】
事件抽取方法、事件抽取网络的训练方法及装置
[0001]本专利技术涉及自然语言处理
,尤其涉及一种事件抽取方法、事件抽取网络的训练方法、装置、电子设备及存储介质。
技术介绍
[0002]事件抽取技术是理解语言的一种重要基础技术,在金融、舆情监控、数据挖掘和文本挖掘等领域有着广泛的应用。在应用事件抽取技术之前,金融从业人员通常是采用人工的方式搜集新闻和/或公告,从长篇新闻或公告中找出一些风险信号或营销机会非常费时费力;而事件抽取技术可直接从新闻和/或公告中抽取出企业名称等重要事件,可以大大提升工作效率。
[0003]相关技术中,事件抽取技术通常是基于模式匹配进行事件抽取,或是基于神经网络将事件抽取分为事件类型识别和论元角色识别两阶段任务,得到事件识别信息。但上述方案,一方面事件抽取模式设置过程较为繁琐,导致事件抽取效率较低;另一方面,事件抽取准确率较低。
技术实现思路
[0004]本专利技术实施例提供一种事件抽取方法、事件抽取网络的训练方法、装置、电子设备及存储介质。
[0005]本专利技 ...
【技术保护点】
【技术特征摘要】
1.一种事件抽取方法,其特征在于,包括:将单一事件的自然语言文本的文本输入事件抽取网络,得到所述事件抽取网络输出的所述单一事件内多个子事件的标签,其中,一个所述子事件对应于一个标签,不同子事件的标签互不冲突;合并多个所述子事件的标签所描述的事件论元和事件角色,得到所述单一事件的事件识别信息。2.根据权利要求1所述的方法,其特征在于,所述将单一事件的自然语言文本的文本输入事件抽取网络,得到所述事件抽取网络输出的所述单一事件内多个子事件的标签,包括:对所述单一事件的自然语言文本进行预处理,得到词向量;将所述词向量输入至事件抽取网络中;通过所述事件抽取网络中的共享层对所述词向量进行特征提取,得到特征信息;通过所述事件抽取网络中位于所述共享层输出端的多个并列设置的任务层,分别基于所述特征信息进行论元与角色的识别,得到所述单一事件内多个子事件的标签。3.根据权利要求2所述的方法,其特征在于,所述对所述单一事件的自然语言文本进行预处理,得到词向量,包括:对所述单一事件的自然语言文本进行滤除非法字符操作;并对处理后的自然语言文本进行分词处理,将分词处理得到的各个词映射成词向量。4.根据权利要求2所述的方法,其特征在于,所述通过所述事件抽取网络中位于所述共享层输出端的多个任务层,分别基于所述特征信息进行论元与角色的识别,得到所述单一事件内多个子事件的标签,包括:所述多个并列设置的任务层分别从所述特征信息中,选取与所述任务层对应的子事件关联的特征信息;针对预设的事件角色标签信息,基于所述任务层对应的子事件关联的特征信息进行论元与角色的识别,得到描述所述子事件的事件论元和事件角色的标签。5.根据权利要求4所述的方法,其特征在于,所述事件角色标签信息是根据事件类型和所述事件角色生成的。6.一种事件抽取网络的训练方法,其特征在于,包括:获取自然语言文本的训练样本集和所述训练样本集的标签信息;所述标签信息包括所述训练样本集中单一事件对应的多个子事件的标签信息;其中,一个所述子事件对应于一个标签信息,不同子事件的标签信息互不冲突;将所述训练样本集的文本输入至初始网络,得到所述初始网络输出的预测标签;所述预测标签为单一事件的所述多个子事件对应的事件论元和事件角色形成的;根据所述预测标签和所述标签信息之间的差异,确定所述初始网络的损失函数值;若所述损失函数值不满足停止训练条件,继续训练所述初始网络。7.根据权利要求6所述的训练方法,其特征在于,所述获取自然语言文本的训练样本集和所述训练样本集的标签信息,包括:获取自然语言文本的训练样本集;基于预设的事件角色标签信息,确定所述训练样本集中单一事件对应的标签信息;根据所述单一事件对应的标签信息中的事件论元和事件角色标签,构建角色冲突矩
阵;基于所述角色冲突矩阵,将所述训练样本集中单一事件对应的标签信息分组为所述多个子事件对应的标签信息。8.根据权利要求7所述的训练方法,其特征在于,所述根据所述单一事件对...
【专利技术属性】
技术研发人员:杨希,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。