System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于特征增强的金融新闻事件元素抽取方法及系统技术方案_技高网
当前位置: 首页 > 专利查询>辽宁大学专利>正文

基于特征增强的金融新闻事件元素抽取方法及系统技术方案

技术编号:40811340 阅读:3 留言:0更新日期:2024-03-28 19:33
基于特征增强的金融新闻事件元素抽取方法及系统,属于数据挖掘领域。具体方法为:步骤1:金融数据集准备;步骤2:建立词嵌入模块;步骤3:多粒度注意力机制模块;步骤4:建立LSTM扩展模块;步骤5:建立门操作模块;建立步骤6:CRF模块,最终通过最大化条件概率,实现事件以及事件元素的结构化输出。本发明专利技术通过上述方法及所应用的系统,能够有效抽取特定金融事件类型元素信息,更好的达到应用服务目的。

【技术实现步骤摘要】

本专利技术属于数据挖掘,涉及一种文档级金融事件元素抽取方法,特别涉及一种基于特征增强的金融新闻事件元素抽取方法及系统


技术介绍

1、近年来,随着我国金融业不断深化改革,金融治理能力和水平稳步提升,现代金融监管体系日趋成熟,导致相关金融新闻文档增长的速度远远超过了人们的阅读能力,研究者们通常需要花费大量精力寻找自己想得到的金融交易信息,以了解相关企业的最新金融活动。因此,如何从海量的金融新闻文档中以自动化方式挖掘用户所需要的重要事件要素信息具有极其重要的研究意义。金融事件抽取是将非结构化的金融新闻文档转化为相关交易事件的结构化表示,在股票走势分析、企业投资决策、市场体系构建等下游财务任务中具有极其重要的应用价值和实用功能。然而,由于这类事件中的金融实体之间存在复杂的语义歧义性和丰富的上下文信息,一种有效的事件元素抽取方法在金融监管领域仍然亟待开发。

2、金融监管领域的事件抽取方法源自于自然语言处理任务中的事件抽取,事件抽取主要被划分为事件类型监测和事件元素抽取两个子任务,传统的方法主要按照流式处理方法顺序执行该两个子任务。现有方法主要基于规则、基于特征提取、基于深度学习方法三大类别。然而,基于规则的方法仅仅依赖于已知问题和场景,移植性、灵活性较差;基于特征提取的方法主要依赖于非自动化特征提取,复杂的特征工程通常存在既费力又耗时的问题;随着深度学习技术的快速发展,基于深度学习的方法依赖强大的特征学习能力和良好的可移植性被广泛应用于金融事件抽取任务中。然而,这类方法仍然存在以下两大挑战:1、金融新闻文档结构复杂,无法有效捕捉金融事件以及事件元素间存在的跨句子远依赖信息以及句子间上下文语义信息;2、金融文档句子内部的事件及事件元素通常存在嵌套、重叠现象,句子内部语义信息难以学习、聚合。

3、综上所述,如何采取适当的措施与技术,在金融新闻文档中挖掘有用信息,抽取重要的交易事件类型以及事件元素信息已经成为当前数据挖掘领域研究的热点与难点。


技术实现思路

1、针对现有技术的不足,本专利技术的目的是提出一种基于特征增强的金融新闻事件元素抽取方法及系统。在该方法中,首先在编码层,提出了一种多粒度注意力层和长短期循环神经网络扩展层lstm来获取细粒度的金融语义信息;其次,在解码层中,为避免事件语义混淆问题,构建了条件随机场(crf)层对金融事件元素进行联合标记,进而能够有效抽取特定金融事件类型元素信息,更好的达到应用服务目的。

2、本专利技术是通过以下技术方案实现的:基于特征增强的金融新闻事件元素抽取方法其步骤为:

3、步骤1:金融数据集准备;

4、对获取原始的金融新闻文档数据集和对数据集进行人工标注,将金融新闻数据进行传送,由crf模块得到结果;

5、步骤2:词嵌入模块;

6、首先,对整个文档进行建模。在词嵌入模块,利用预训练语言模型对文档中每个单词进行编码,并映射成向量,获得每个单词的初始向量表示;

7、将文档d划分为多个句子si,逐步将每个句子都送入至bert预训练语言模型中,输入由[clp]、[sep]、文档单词组成,其中[clp]表示文档的其实标识符向量,[sep]表示每个句子之间的分隔符向量,每种类型的初始向量均经过掩码多头注意力机制,学习文档中的上下文语义信息;

8、在注意力机制中,每个单词向量之间均进行点乘操作,分别利用q,k,v学习参数矩阵学习两个单词之间的关注度,将其他单词对当前单词的关注度乘以当前单词向量相乘,得到当前单词的向量信息;再将得到的单词向量信息通过累加和归一化层,对单词维度进行压缩,得到当前迭代过程的单词表示;最终通过bert中的n层迭代机制,重复对单词向量进行上述操作,获取每个单词的预训练向量表示。

9、步骤3:多粒度注意力机制模块;

10、步骤3-1:局部依赖信息聚合;

11、每个句子内部均含有丰富的语义信息,将每个句子划分为多个基本篇章单元edu,并将其作为一个独立的聚合单元,通过使用多头注意力机制学习文档中的局部语义依赖信息,获得细粒度的局部语义特征向量;

12、首先,利用edu分割技术将每个句子切分为多个子句子单元,每个句子通常由逗号分隔开;

13、将上个步骤中获得的初始单词嵌入向量,根据edu单元分隔开,按照所在的当前句子的edu位置进行组合;

14、以edu为单位分别将其送入多头注意力机制中,学习不同edu单元中不同单词之间的语义关联;在第i个句子si的第一个edu单元中的单词hi与当前句子中的第二个edu单元中的单词进行注意力操作,通过q,k,v参数矩阵学习它们之间的关联,获得单词局部信息语义向量操作如公式(1)所示:

15、

16、

17、其中:w*表示为注意力机制学习权重矩阵,si表示句子向量,q,k,v表示为注意力参数矩阵,dk表示输入句子长度,z表示为注意力的机制的头数。

18、步骤3-2:跨句子依赖信息聚合;

19、每个文档中,句子之间存在密切的上下文语义关联,将金融新闻文档划分为多个句子,采用多头共同注意机制将句子间的语义特征实现关联,并生成跨句子特征向量;

20、在学习两个句子si,sj之间的关联信息时,将两个句子中的单词hi进行拼接,点乘操作,并将操作后的向量进行拼接,通过w,b学习参数获得关联强度,再通过softmax函数对其进行归一化操作,将sj中所有单词的权重分别乘以当前单词的向量信息与单词hi进行融合,得到跨句子向量信息

21、

22、

23、

24、其中:si,sj分别表示句子向量,wsim,bsim表示可学习参数,aij表示两句子之间的关系强度,z表示注意力机制头数。

25、步骤4:lstm扩展模块;

26、将局部语义特征向量和跨句子特征向量通过输入门单元和遗忘门单元学习当前输入特征和上一个记忆单元特征,再利用输出门单元决定记忆单元的哪些历史信息可以传输到隐层节点,通过这三个门单元的协作,有效建模上下文信息,获得融合上下文语义的两种特征向量;

27、将句子内部语义单词向量和跨句子语义表示向量分别传入lstm模块中,分别学习句内和句间的上下文语义信息,lstm模块包括输入门控单元it、输出门控单元ft以及遗忘门控单元ot;输入门单元it和遗忘门单元ft控制记忆当前输入特征vt和上一个记忆单元ct-1,输出门单元ot决定记忆单元ct的哪些历史信息可以传输到隐层节点,通过上述操作,句内和句间的上下文语义信息被学习;

28、

29、

30、其中:分别表示句子级别的单词嵌入表示,文档级别的单词嵌入表示;表示句内和句间的上下文语义信息。

31、步骤5:门操作模块;

32、通过门操作模块,将局部和全局向量进行有效结合,在该模块中,将局部语义特征向量和跨句子特征向量通过逐元素乘法实现两种粒本文档来自技高网...

【技术保护点】

1.基于特征增强的金融新闻事件元素抽取方法,其特征在于,其步骤为:

2.根据权利要求1所述的基于特征增强的金融新闻事件元素抽取方,其特征在于,所述的步骤2中,具体方法为:

3.根据权利要求1所述的基于特征增强的金融新闻事件元素抽取方,其特征在于,所述的步骤3-1中,具体方法为:

4.根据权利要求1所述的基于特征增强的金融新闻事件元素抽取方,其特征在于,所述的步骤3-2中,具体方法为:

5.根据权利要求1所述的基于特征增强的金融新闻事件元素抽取方,其特征在于,所述的步骤4中,具体方法为:

6.根据权利要求1所述的基于特征增强的金融新闻事件元素抽取方,其特征在于,所述的步骤5中,具体方法为:

7.根据权利要求1所述的基于特征增强的金融新闻事件元素抽取方法,其特征在于,所述的步骤6中,具体方法为:

8.一种实现权利要求1-7任意一项所述的基于特征增强的金融新闻事件元素抽取方法的系统,其特征在于,包括编码层和解码层;

9.根据权利要求8所示的一种实现基于特征增强的金融新闻事件元素抽取方法的系统,其特征在于,包括如下模块:

...

【技术特征摘要】

1.基于特征增强的金融新闻事件元素抽取方法,其特征在于,其步骤为:

2.根据权利要求1所述的基于特征增强的金融新闻事件元素抽取方,其特征在于,所述的步骤2中,具体方法为:

3.根据权利要求1所述的基于特征增强的金融新闻事件元素抽取方,其特征在于,所述的步骤3-1中,具体方法为:

4.根据权利要求1所述的基于特征增强的金融新闻事件元素抽取方,其特征在于,所述的步骤3-2中,具体方法为:

5.根据权利要求1所述的基于特征增强的金融新闻事件元素抽取方,其特征在于,所...

【专利技术属性】
技术研发人员:陈泽宋宝燕王俊陆刘杭生臧超禹李素
申请(专利权)人:辽宁大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1