【技术实现步骤摘要】
基于Encoder-Decoder的事件抽取方法
本专利技术涉及自然语言处理领域,更为具体的,涉及一种基于Encoder-Decoder的事件抽取方法。
技术介绍
随着互联网的快速发展,尤其是移动互联网,互联网上的资源呈爆炸式增长。在如此海量的互联网资源信息中如何快速、准确的抽取有价值的信息,已经成为人们面临的重大难题。在如此背景之下,人们投入大量的精力到信息抽取中。事件抽取是一种复杂的信息抽取形式,它能够提供更高层次的内容处理抽象能力,主要指从非结构化数据中抽取出用户感兴趣的事件,以结构化的方式存储在数据库中供用户使用。随着事件抽取技术的蓬勃发展,早期的研究方法主要通过在特定领域表现良好的模式匹配中进行。由于基于规则和模式匹配的事件抽取方法可移植性差,众多学者把目光集中于机器学习方法。近年来,随着深度学习在自然语言处理任务中的不断创新,已成为事件抽取研究的主流方法。现有技术往往针对某一特定领域,存在领域适应能力,抽象学习能力较差,模型繁杂,计算过程需要消耗大量的资源和时间等问题。
技术实现思路
...
【技术保护点】
1.一种基于Encoder-Decoder的事件抽取方法,其特征在于,包括步骤:/nS1,文本预处理,对网络爬虫从互联网上爬取的开放域数据,进行文本预处理,预处理包括去除原始数据中的冗余标签,提取所需的正文内容,对预处理之后的数据进行词向量训练;/nS2,标注文本,对预处理之后的文本进行打标,标识句子对应的事件类型;/nS3,结合GRU+Attention机制来搭建并训练用于判定事件类型的Encoder-Decoder模型,得到轻量级深度学习Encoder-Decoder网络模型并持续训练,对事件抽取任务进行抽象与表征;/nS4,基于步骤S3中已训练的轻量级深度学习Enco ...
【技术特征摘要】
1.一种基于Encoder-Decoder的事件抽取方法,其特征在于,包括步骤:
S1,文本预处理,对网络爬虫从互联网上爬取的开放域数据,进行文本预处理,预处理包括去除原始数据中的冗余标签,提取所需的正文内容,对预处理之后的数据进行词向量训练;
S2,标注文本,对预处理之后的文本进行打标,标识句子对应的事件类型;
S3,结合GRU+Attention机制来搭建并训练用于判定事件类型的Encoder-Decoder模型,得到轻量级深度学习Encoder-Decoder网络模型并持续训练,对事件抽取任务进行抽象与表征;
S4,基于步骤S3中已训练的轻量级深度学习Encoder-Decoder网络来完成事件抽取任务,得出相应事件类型。
2.根据权利要求1所述的基于Encoder-Decoder的事件抽取方法,其特征在于,步骤S1包括:
S101,根据收集的网页URL链接,爬取网络中的目标文本消息;
S102,将爬取的文本进行提炼,去除冗余信息,保存所需正文内容;
S103,将每一条文本消息进行切词处理,然后输入到词向量训练模型中进行词向量训练。
3.根据权利要求1所述的基于Encoder-Decoder的事件抽取方法,其特征在于,步骤S2中,除人工打标之外,将一些不属于用户指定任一事件类型的文本也添加到语料中单独作为一类,以增加神经网络模型的噪音,提高泛化能力。
4.根据权利要求1所述的基于Encoder-Decoder的事件抽取方法,其特征在于,步骤S2中,包括对目标文本消息所属事件类型进行标注,其中事件类型的个数是有限的,由用户自定义所关注的相应事件类型。
5.根据权利要求1所述的基于Encoder-Decoder的事件抽取方法,其特征在于,步骤S3中,
S301,Encoder过程:将标注好的语料,以训练好的词向量代表句子中的词语输入到GRU中进行编码,得到初始特征向量;
S302,Attention机制:将Encoder之后的特征向量进行Attenti...
【专利技术属性】
技术研发人员:胡浩,胥小波,范晓波,徐舒霖,康英来,王伟,
申请(专利权)人:中国电子科技网络信息安全有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。