事件抽取模型的训练方法、事件抽取方法和系统及设备技术方案

技术编号:25950081 阅读:35 留言:0更新日期:2020-10-17 03:42
本发明专利技术公开了一种事件抽取模型的训练方法、事件抽取方法和系统及设备。其中,事件抽取模型的训练方法包括:获取文档数据并进行相关标注,对已进行相关标注的文档数据进行向量化处理;对向量化处理后的文档数据,按照句子、段落和文档三个级别进行特征提取,将提取得到的三个级别的特征进行融合处理,得到融合全文信息的特征;基于融合全文信息的特征和标注的标签,通过有监督的深度学习算法,进行实体识别、事件识别和事件元素分类的训练,得到事件抽取模型。本发明专利技术通过分别提取句子级别特征、段落级别特征、文档级别特征,然后融合三个层次的特征,充分使用了全文信息,增强了特征表达,进而提高了事件抽取识别的性能。

【技术实现步骤摘要】
事件抽取模型的训练方法、事件抽取方法和系统及设备
本专利技术涉及计算机数据处理
的事件抽取技术,具体涉及一种事件抽取模型的训练方法、事件抽取方法和系统及设备。
技术介绍
近些年来,随着金融领域数字化的兴起和持续的经济增长,见证了数字金融文件的爆炸式增长,网络上存在海量的金融文件,比如大量公司的公告和公司年报。这些海量的数据中包含大量宝贵的信息,但是这些数据大多数都是非结构化或半结构化的数据,非常难以结构化,难以进行量化,所以需要人工进行分析,但是面对海量的数据单纯的只依靠人力进行分析,不仅是非常低效的还难以实现,所以对这些数据结构化的研究成为一个研究热点,并在近年得到快速发展,各种数据结构化的系统层出不穷。事件抽取是指识别特定类型的事件,并进行相关信息的确定和抽取。事件抽取在自然语言处理中扮演着重要的角色,它可以产生可评估的结构化信息,以促进各种任务的完成,如知识库的构建、问题的回答、语言理解等。基于事件抽取的特点,其在金融领域有着广泛的应用。比如相关金融公告的事件抽取,金融公告归根到底就是一个事件,其是发生在某个特定的时间点或时本文档来自技高网...

【技术保护点】
1.一种事件抽取模型的训练方法,其特征在于,包括:/n获取文档数据并进行相关标注,对已标注的文档数据进行向量化处理;/n对向量化处理后的文档数据,按照句子、段落和文档三个级别进行特征提取,将提取得到的三个级别的特征进行融合处理,得到融合全文信息的特征;/n基于融合全文信息的特征和标注的标签,通过有监督的深度学习算法,进行实体识别、事件识别和事件元素分类的训练,得到事件抽取模型。/n

【技术特征摘要】
1.一种事件抽取模型的训练方法,其特征在于,包括:
获取文档数据并进行相关标注,对已标注的文档数据进行向量化处理;
对向量化处理后的文档数据,按照句子、段落和文档三个级别进行特征提取,将提取得到的三个级别的特征进行融合处理,得到融合全文信息的特征;
基于融合全文信息的特征和标注的标签,通过有监督的深度学习算法,进行实体识别、事件识别和事件元素分类的训练,得到事件抽取模型。


2.根据权利要求1所述的方法,其特征在于,所述将提取得到的三个级别的特征进行融合处理,得到融合全文信息的特征,包括:
将句子、段落和文档级别特征分别记为S_i,P_i,D_i;
计算段落级别信息的融合权重为G^p_i=sigmoid(W1*S_i+W2*P_i+b),以及,计算文档级别信息的融合权重为G^d_i=sigmoid(W1*S_i+W2*D_i+b),其中,W1、W2和b是预设的参数;
最终获取融合全文信息的特征,记为:F_i=G^d_i*D_i+G^p_i*P_i+(2-G^p_i-G^d_i)*S_i。


3.根据权利要求1所述的方法,其特征在于,所述按照句子、段落和文档三个级别进行特征提取,包括:
将文档数据以句子为处理单元,输入到特征提取器中进行特征交互,提取得到句子级别的特征;
将文档数据在句子的基础上进行分段,以段落为处理单元,输入到特征提取器中进行特征交互,提取得到段落级别的特征;
将文档数据以全文为处理单元,输入到特征提取器中进行特征交互,提取得到文档级别的特征。


4.根据权利要求1所述的方法,其特征在于,所述通过有监督的深度学习算法,进行实体识别、事件识别和事件元素分类的训练,包括:
通过将得到的融合全文信息的特征输入到条件随机场CRF模块进行实体识别训练,将文档数据识别为相关的事件触发词实体和事件元素触发词实体;
将识别的事件触发词实体转化为向量,输入到分类器中进行事件识别训练;
将识别的事件元素触发词实体转化为向量,输入到分类器中进行事件元素分类训练。


5.根据权利要求1所述的方法,其特征在于,所述得到事件抽取模型之后,还包括:
针对由实体识别、事件识别和事件元素分类构成的前向传播过程,构建一个反向传播过程,来降低在进行实体识别、事件识别和事件元素分类的训练的过程中分别得到:实体识别分类损失函数loss1,事件识别分类损失函数loss2,事件元素分类损失函数loss3;以实现对得到的事件抽取模型进行优化。<...

【专利技术属性】
技术研发人员:程刚张剑
申请(专利权)人:深圳市北科瑞声科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1