事件抽取方法、装置、电子设备及计算机可读介质制造方法及图纸

技术编号:41136087 阅读:26 留言:0更新日期:2024-04-30 18:07
本公开涉及一种事件抽取方法、装置、电子设备及计算机可读介质,属于自然语言处理技术领域。该方法包括:对原始事件文本进行核心事件提取并得到第一模型输入数据;将第一模型输入数据输入第一语言表示模型中进行事件触发词的识别,将触发词嵌入式向量经过多任务分类器进行多任务学习,得到事件触发词以及第一辅助任务结果;根据触发词嵌入式向量、事件触发词以及与原始事件文本相关的多媒体信息数据得到第二模型输入数据;将第二模型输入数据输入第二语言表示模型中进行事件要素的识别,将要素嵌入式向量经过多任务分类器进行多任务学习,得到事件要素以及第二辅助任务结果。本公开能够利用多任务学习实现事件信息的综合抽取。

【技术实现步骤摘要】

本公开涉及自然语言处理,具体而言,涉及一种事件抽取方法、事件抽取装置、电子设备及计算机可读介质。


技术介绍

1、事件抽取是从非结构化的自然语言文本中自动抽取用户感兴趣的事件要素,是信息抽取重要组成部分。目前,事件抽取的水平还限制在对独立语言、单一领域的事件文本处理上,对跨语言、开放多领域的研究大都处于探索阶段。例如,中文事件抽取的相关研究主要集中在生物医学、微博、新闻、紧急情况等方面。对于包含大量综合信息的领域,例如短视频领域等,跨语言事件抽取研究目前仍非常缺乏。

2、目前的事件抽取方法的缺点主要包括模板构建成本大、技术方案适应性差以及事件描述生成机械复杂等。具体而言,目前的事件抽取方法需要针对特定领域进行大量的人工构建工作,需要预先构建初始触发词集合并针对每一类别的触发词集合设计一套包含触发词、事件论元角色的事件类别模板,这些工作都需要较多的时间消耗和领域内专家先验知识;预定义的事件类型和schema(模式)往往适合在特定的数据集上,但是在实际使用特别是开放域的短视频生态下很难有效适配,迁移成本也很高;另外,基于模板来生成结构化的事件描述,比本文档来自技高网...

【技术保护点】

1.一种事件抽取方法,其特征在于,包括:

2.根据权利要求1所述的事件抽取方法,其特征在于,所述对原始事件文本进行核心事件提取,得到对应的核心事件文本,包括:

3.根据权利要求1所述的事件抽取方法,其特征在于,所述根据所述核心事件文本得到第一模型输入数据,包括:

4.根据权利要求1所述的事件抽取方法,其特征在于,所述将所述触发词嵌入式向量经过所述第一语言表示模型对应的多任务分类器进行多任务学习,得到抽取出的事件触发词以及第一辅助任务结果,包括:

5.根据权利要求1所述的事件抽取方法,其特征在于,所述根据所述触发词嵌入式向量、所述事件触发词以...

【技术特征摘要】

1.一种事件抽取方法,其特征在于,包括:

2.根据权利要求1所述的事件抽取方法,其特征在于,所述对原始事件文本进行核心事件提取,得到对应的核心事件文本,包括:

3.根据权利要求1所述的事件抽取方法,其特征在于,所述根据所述核心事件文本得到第一模型输入数据,包括:

4.根据权利要求1所述的事件抽取方法,其特征在于,所述将所述触发词嵌入式向量经过所述第一语言表示模型对应的多任务分类器进行多任务学习,得到抽取出的事件触发词以及第一辅助任务结果,包括:

5.根据权利要求1所述的事件抽取方法,其特征在于,所述根据所述触发词嵌入式向量、所述事件触发词以及与所述原始事件文本相关的多媒体信...

【专利技术属性】
技术研发人员:林闯梅立军江灿
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1