面向金融领域的因果关系提取方法和系统技术方案

技术编号:30779936 阅读:65 留言:0更新日期:2021-11-16 07:40
面向金融领域的混合因果关系提取方法,包括:步骤1:扩充训练语句、训练模型;步骤2:提取中心词;步骤3:查中心词表;步骤4:以中心词为界划分句子为两边,再进行相应的句子预处理,删去多余的句子;步骤5:矫正中心词位置;步骤6:分类型进行因果识别;步骤7:模型调优。本发明专利技术还包括面向金融领域的混合因果关系提取系统。本发明专利技术以金融领域的因果语料作为训练集训练模型,同时建立中心词库,实现面向金融领域的文本的混合因果关系的提取,对指导事件溯因、问答、把握行业动态等方面提供一定支持。把握行业动态等方面提供一定支持。把握行业动态等方面提供一定支持。

【技术实现步骤摘要】
面向金融领域的因果关系提取方法和系统


[0001]本专利技术涉及一种关系抽取以及因果判别方法和系统,特别是面向金融领域的混合因果关系提取方法和系统,实现了对金融语段中显式及隐式因果关系的提取。

技术介绍

[0002]在经济全球化的时代背景下,研究金融事件因果关系对于制定国家的宏观调控政策具有重要的参考意义。例如,在上市公司财报中蕴藏着大量的人工总结,其中包括大量的因果关系。因果关系的识别可以帮助我们了解事件之间的来龙去脉,获取事件的演化关系,有助于预测和决策。同时随着自然语言处理技术的快速发展,文本事件抽取和事件因果关系的抽取领域已经存在大量的研究基础,而现有研究中仍缺乏针对金融事件中因果关系的快速甄别和发现方法。本项目拟基于BERT的预训练语言模型,以金融领域的因果语料作为训练集训练模型,同时建立中心词库,实现面向金融领域的文本的混合因果关系的提取,对指导事件溯因、问答、把握行业动态等方面提供一定支持。
[0003]金融领域因果关系的提取存在以下几个问题:
[0004](1)金融行业迅速发展,交易活动活跃,事件信息含量巨大,且发布的信息文本往往具有篇幅长、句法结构复杂等特点,因此在本文的处理上存在着较大的难点,难度较大。
[0005](2)因果关系确认存在乱点。对于句法结构复杂的金融文本,往往会存在一个句子具有多个因果关系,一组因果中的原因和结果可能是一个或是多个,需抽取该中心词对应的全部原因和结果。
[0006](3)中心词的提取存在难点。中心词是句子因果关系中链接因主体与果主体的构成部分,是能清晰表达事物发生的词语。若在文本中不能正确的找到中心词,则对于后续因果对的抽取,将存在不同程度上的偏差或是直接错误。
[0007]因果关系抽取(Causality Extraction)是一种自然语言处理中的关系抽取任务,用于挖掘文本中具有因果关系的事件对。近年来,神经网络与机器学习相结合的方法避免了传统的事件因果关系抽取方法中的高代价特征工程,可以捕获文本中的隐含的和模糊的因果关系。在金融领域,随着经济生活的不断发展,金融事件不断发生,产生大量事件信息。相对于其他领域而言,金融领域发生的事件常具有复杂性、关联性与专业性,若是直接对信息关系进行判断处理,将存在很大的难度且准确性、可信度都会有一定的影响。如何从这些海量的金融事件数据中找到蕴含的潜在规律,并对金融事件因果关系信息进行科学分析也成为一个亟待解决的问题。因此,金融事件因果关系的提取便赋予了重要性与必要性。从金融领域中的研报、公告中,将金融逻辑抽取出来,构建成事理图谱,对指导事件溯因、问答、把握行业动态等方面有着至关重要的作用。同时,随着自然语言处理技术的快速发展,文本事件抽取和事件因果关系的抽取领域已经存在大量的研究基础,而现有研究中仍缺乏针对金融事件中因果关系的快速甄别和发现方法。因此,本项目拟架构一个基于BERT预训练语言模型的金融因果关系识别模型,实现隐式和显式,一因一果、多因多果、一因多果、一因多果的因果关系抽取,为金融决策及其他实际应用需求提供领域的未来动态信息,从而解决
企业风险预测分析成本高、效率低、门槛高以及时效性低的问题。

技术实现思路

[0008]本专利技术要克服现有技术的上述缺点,,提出一种面向金融领域的因果关系提取方法和系统。
[0009]本专利技术拟架构一个基于BERT预训练语言模型的金融因果关系识别模型,实现隐式和显式,一因一果、多因多果、一因多果、一因多果的因果关系抽取,为金融决策及其他实际应用需求提供领域的未来动态信息,从而解决企业风险预测分析成本高、效率低、门槛高以及时效性低的问题。
[0010]本专利技术的面向金融领域的因果关系提取方法,包含以下步骤:
[0011]步骤1:从金融领域的研报、文章中获取相关的语句扩充语料,并分别标注有因果关系的句子和没有因果关系的句子,将其作为训练集训练BERT模型以判断因果关系的存在。模型架构见图2。
[0012]步骤2:提取句子中的中心词,并扩充中心词表,标注其常见位置和常用方式。
[0013]步骤3:获得输入的语句,对有中心词的句子,查找中心词表,获得该中心词的常见位置以及其常用方式。若没有中心词,则将模型变成三分类(无因果,前因后果和后因前果),然后按照排列组合的方式做到部分句子的划分。
[0014]步骤4:句子以中心词为界划为左右两边,并且依据标点符号进行分句,再进行相应的句子预处理,删去多余的句子。
[0015]步骤5:对可能存在错误的中心词位置进行矫正。
[0016]步骤6:对中心词在中间、中心词在前面和中心词在后面的三种中心词所处位置的不同情况进行分开处理,通过找实体、判断俩俩因果关系的存在与否得到两个列表,实现一因多果、多因一果、一因一果和多因多果的识别,最后判断得到其中一个为原因列表,一个为结果列表。
[0017]步骤7:对得到的初步模型结果进行人为判别及参数调优,通过数据集针对性扩容和超参数调优,提升模型的因果判断效果。
[0018]优选地,步骤2所述的找出句子中的中心词包括“导致”、“由于”、“因为”;所述的并扩充中心词表是进行同义词搜索可以找到其他能指示因果关系的词语加入到中心词表中;所述的常见位置是在中间、在前面、在后面三种,所述的常用方式是表征前因后果和表征前果后因两种。
[0019]步骤5所述的矫正中心词位置具体包括:
[0020]a)中心词应该在中间,但是左边没有存在名词的句子,会把它的位置重新设为前面;反之设为后面;
[0021]b)中心词在前面,右边没有两个存在名词的句子时进行矫正,右边只有一个存在实体的句子,设为中间,右边没有存在实体的句子,设为后面;
[0022]c)中心词在后面,左边没有两个存在名词的句子时进行矫正,左边有一个存在实体的句子,设为中间,左边没有存在实体的句子,设为前面。
[0023]步骤6所述的对以下三种中心词所处位置不同的情况进行分开处理,具体包括:
[0024]a)中心词在中间:找左右两边最近的实体,记为left和right,分别放到左列表和
右列表中;左边其余句子与right依次组合并且放到训练好的BERT模型中进行因果关系的判断,如果存在因果关系则加到左列表中去,同理,右边其余句子与left依次组合并且放到模型进行因果关系的判断,如果存在因果关系则加到右列表中去;最后根据中心词的常用方式判断哪一个是原因列表,哪一个是结果列表;
[0025]b)中心词在前面:中心词后面最近的一个实体记为head,加到头列表中,剩余句子依次与head组合放入训练好的BERT模型进行因果关系的判断,如果存在因果关系就放入尾列表,反之放入临时列表,临时列表用于暂时储存可能是原因/结果所在句的句子,临时列表中能跟尾列表半数的句子构成因果关系就放入头列表中,最后判断头列表和尾列表哪一个是原因列表,哪一个是结果列表;
[0026]c)中心词在后面:中心词前面最近的一个实体记为tail,加到尾列表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.面向金融领域的混合因果关系提取方法,包括以下步骤:步骤1:扩充训练语句、训练模型;从金融领域的研报、文章中获取相关的语句扩充语料,并分别标注有因果关系的句子和没有因果关系的句子,将其作为训练集训练BERT模型以判断因果关系的存在;步骤2:提取中心词;找出句子中的中心词,并扩充中心词表,标注其常见位置和常用方式;步骤3:查中心词表;获得输入的语句,对有中心词的句子,查找中心词表,获得该中心词的常见位置以及其常用方式;若没有中心词,则将模型变成三分类(无因果,前因后果和后因前果),然后按照排列组合的方式做到部分句子的划分;步骤4:以中心词为界划分句子为两边;句子以中心词为界划为左右两边,并且依据标点符号进行分句,再进行相应的句子预处理,删去多余的句子;步骤5:矫正中心词位置;对可能存在错误的中心词位置进行矫正;步骤6:分类型进行因果识别;对中心词在中间、中心词在前面和中心词在后面的三种中心词所处位置的不同情况进行分开处理,通过找实体、判断俩俩因果关系的存在与否得到两个列表,实现一因多果、多因一果、一因一果和多因多果的识别,最后判断得到其中一个为原因列表,一个为结果列表;步骤7:模型调优;对得到的初步模型结果进行人为判别及参数调优,通过数据集针对性扩容和超参数调优,提升模型的因果判断效果。2.如权利要求1所述的面向金融领域的混合因果关系提取方法,其特征在于:步骤2所述的找出句子中的中心词包括“导致”、“由于”、“因为”;所述的并扩充中心词表是进行同义词搜索可以找到其他能指示因果关系的词语加入到中心词表中;所述的常见位置是在中间、在前面、在后面三种,所述的常用方式是表征前因后果和表征前果后因两种。3.如权利要求1所述的面向金融领域的混合因果关系提取方法,其特征在于:步骤5所述的矫正中心词位置具体包括:a)中心词应该在中间,但是左边没有存在名词的句子,会把它的位置重新设为前面;反之设为后面;b)中心词在前面,右边没有两个存在名词的句子时进行矫正,右边只有一个存在实体的句子,设为中间,右边没有存在实体的句子,设为后面;c)中心词在后面,左边没有两个存在名词的句子时进行矫正,左边有一个存在实体的句子,设为中间,左边没有存在实体的句子,设为前面。4.如权利要求1所述的面向金融领域的混合因果关系提取方法,其特征在于:步骤6所述的对以下三种中心词所处位置不同的情况进行分开处理,具体包括:c)中心词在中间:找左右两边最近的实体,记为left和right,分别放到左列表和右列表中;左边其余句子与right依次组合并且放到训练好的BERT模型中进行因果关系的判断,如果存在因果关系则加到左列表中去,同理,右边其余句子与left依次组合并且放到模型进行因果关系的判断,如果存在因果关系则加到右列表中去;最后根据中心词的常用方式判断哪一个是原因列表,哪一个是结果列表;d)中心词在前面:中心词后面最近的一个实体记为head,加到头列表中,剩余句子依次与head组合放入训练好的BERT模型进行因果关系的判断,如果存在因果关系就放入尾列
表,反之...

【专利技术属性】
技术研发人员:高楠董嘉豪冯伟强周越俞凯乐葛婧
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1