面向金融领域的因果关系提取方法和系统技术方案

技术编号：30779936 阅读：65 留言：0更新日期：2021-11-16 07:40

面向金融领域的混合因果关系提取方法，包括：步骤1：扩充训练语句、训练模型；步骤2：提取中心词；步骤3：查中心词表；步骤4：以中心词为界划分句子为两边，再进行相应的句子预处理，删去多余的句子；步骤5：矫正中心词位置；步骤6：分类型进行因果识别；步骤7：模型调优。本发明专利技术还包括面向金融领域的混合因果关系提取系统。本发明专利技术以金融领域的因果语料作为训练集训练模型，同时建立中心词库，实现面向金融领域的文本的混合因果关系的提取，对指导事件溯因、问答、把握行业动态等方面提供一定支持。把握行业动态等方面提供一定支持。把握行业动态等方面提供一定支持。

全部详细技术资料下载

【技术实现步骤摘要】
面向金融领域的因果关系提取方法和系统

[0001]本专利技术涉及一种关系抽取以及因果判别方法和系统，特别是面向金融领域的混合因果关系提取方法和系统，实现了对金融语段中显式及隐式因果关系的提取。

技术介绍

[0002]在经济全球化的时代背景下，研究金融事件因果关系对于制定国家的宏观调控政策具有重要的参考意义。例如，在上市公司财报中蕴藏着大量的人工总结，其中包括大量的因果关系。因果关系的识别可以帮助我们了解事件之间的来龙去脉，获取事件的演化关系，有助于预测和决策。同时随着自然语言处理技术的快速发展，文本事件抽取和事件因果关系的抽取领域已经存在大量的研究基础，而现有研究中仍缺乏针对金融事件中因果关系的快速甄别和发现方法。本项目拟基于BERT的预训练语言模型，以金融领域的因果语料作为训练集训练模型，同时建立中心词库，实现面向金融领域的文本的混合因果关系的提取，对指导事件溯因、问答、把握行业动态等方面提供一定支持。
[0003]金融领域因果关系的提取存在以下几个问题：
[0004](1)金融行业迅速发展，交易活动活跃，事件信息含量巨大，且发布的信息文本往往具有篇幅长、句法结构复杂等特点，因此在本文的处理上存在着较大的难点，难度较大。
[0005](2)因果关系确认存在乱点。对于句法结构复杂的金融文本，往往会存在一个句子具有多个因果关系，一组因果中的原因和结果可能是一个或是多个，需抽取该中心词对应的全部原因和结果。
[0006](3)中心词的提取存在难点。中心词是句子因果关系中链接因主体与果主体的...

【技术保护点】

【技术特征摘要】
1.面向金融领域的混合因果关系提取方法，包括以下步骤：步骤1：扩充训练语句、训练模型；从金融领域的研报、文章中获取相关的语句扩充语料，并分别标注有因果关系的句子和没有因果关系的句子，将其作为训练集训练BERT模型以判断因果关系的存在；步骤2：提取中心词；找出句子中的中心词，并扩充中心词表，标注其常见位置和常用方式；步骤3：查中心词表；获得输入的语句，对有中心词的句子，查找中心词表，获得该中心词的常见位置以及其常用方式；若没有中心词，则将模型变成三分类(无因果，前因后果和后因前果)，然后按照排列组合的方式做到部分句子的划分；步骤4：以中心词为界划分句子为两边；句子以中心词为界划为左右两边，并且依据标点符号进行分句，再进行相应的句子预处理，删去多余的句子；步骤5：矫正中心词位置；对可能存在错误的中心词位置进行矫正；步骤6：分类型进行因果识别；对中心词在中间、中心词在前面和中心词在后面的三种中心词所处位置的不同情况进行分开处理，通过找实体、判断俩俩因果关系的存在与否得到两个列表，实现一因多果、多因一果、一因一果和多因多果的识别，最后判断得到其中一个为原因列表，一个为结果列表；步骤7：模型调优；对得到的初步模型结果进行人为判别及参数调优，通过数据集针对性扩容和超参数调优，提升模型的因果判断效果。2.如权利要求1所述的面向金融领域的混合因果关系提取方法，其特征在于：步骤2所述的找出句子中的中心词包括“导致”、“由于”、“因为”；所述的并扩充中心词表是进行同义词搜索可以找到其他能指示因果关系的词语加入到中心词表中；所述的常见位置是在中间、在前面、在后面三种，所述的常用方式是表征前因后果和表征前果后因两种。3.如权利要求1所述的面向金融领域的混合因果关系提取方法，其特征在于：步骤5所述的矫正中心词位置具体包括：a)中心词应该在中间，但是左边没有存在名词的句子，会把它的位置重新设为前面；反之设为后面；b)中心词在前面，右边没有两个存在名词的句子时进行矫正，右边只有一个存在实体的句子，设为中间，右边没有存在实体的句子，设为后面；c)中心词在后面，左边没有两个存在名词的句子时进行矫正，左边有一个存在实体的句子，设为中间，左边没有存在实体的句子，设为前面。4.如权利要求1所述的面向金融领域的混合因果关系提取方法，其特征在于：步骤6所述的对以下三种中心词所处位置不同的情况进行分开处理，具体包括：c)中心词在中间：找左右两边最近的实体，记为left和right，分别放到左列表和右列表中；左边其余句子与right依次组合并且放到训练好的BERT模型中进行因果关系的判断，如果存在因果关系则加到左列表中去，同理，右边其余句子与left依次组合并且放到模型进行因果关系的判断，如果存在因果关系则加到右列表中去；最后根据中心词的常用方式判断哪一个是原因列表，哪一个是结果列表；d)中心词在前面：中心词后面最近的一个实体记为head，加到头列表中，剩余句子依次与head组合放入训练好的BERT模型进行因果关系的判断，如果存在因果关系就放入尾列
表，反之...

【专利技术属性】
技术研发人员：高楠，董嘉豪，冯伟强，周越，俞凯乐，葛婧，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人