一种基于金融事理知识图谱的推理问答方法技术

技术编号：41331819 阅读：5 留言：0更新日期：2024-05-20 09:52

本发明专利技术提供一种基于金融事理知识图谱的推理问答方法，涉及计算机科学与技术的自然语言处理技术领域。该方法包括：获取句子级或篇章级的语料并进行预处理，构建语料数据集并随机划分训练集，采用课程学习的方法将训练集中的语料按照语料的难度等级分组；构建事件抽取模型并训练；获取未作标注的生语料并输入事件抽取模型中抽取事件与事件关系，构建候选事件的事理知识图谱；获取问题并提取目标事件；根据目标事件在候选事件的事理知识图谱中检索候选事件，将候选事件进行向量化表示并更新，再利用线性层对新的候选事件的事件表示进行事件预测；根据候选事件的预测结果确定问题中目标事件的预测回答，优化了传统知识图谱难以进行事件推理的缺陷。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机科学与技术的自然语言处理，尤其涉及一种基于金融事理知识图谱的推理问答方法。

技术介绍

1、随着机器学习和深度学习的不断发展，人工智能技术逐渐成熟并被应用到各行各业。在金融领域，股市一般伴随着短期内随机事件的小波动以及长期内重大事件驱动的大波动。从金融文本中挖掘“粮食减产”导致“农产品价格上涨”，再导致“通胀”，进而导致“股市下跌”这样的远距离事件依赖，对于事件驱动的股市预测具有重要价值。

2、但当前的人工智能技术更多的还是用于处理类似人脸识别等固定问题，对于解决事理逻辑推理问题的研究方面还有很大的进步空间。例如，人类能轻易理解在“春节猪肉需求增加”后，就会发生“猪肉价格上升”这样的常识，而让机器理解并大量掌握这种常识是一件极其困难的事情。在类型众多的人类知识中，包括事件之间的顺承、因果、条件、蕴含和上下位等关系的事理逻辑是一种非常重要且普遍存在的常识，许多人工智能应用都依赖于对事理逻辑知识的深刻理解。

3、在此背景下，学术界基于传统知识图谱提出了事理知识图谱的概念，从大规模的无结构化文本数据中自动获取事理逻辑知识，并将这些知识组织成有向有环图结构，用以描述事件之间的演化规律和模式，并将由这些有向有环图结构构建的知识库称为事理知识图谱。相比侧重于通过实体和实体关系研究在哪里、是什么以及有什么等问题的传统知识图谱，事理知识图谱更侧重于通过事件的逻辑关系解决会怎样、怎么办以及为什么等问题。

4、传统的基于金融知识图谱的语义解析方法，主要是将输入问题进行实体关系抽取，然后将抽取出的

技术实现思路

1、针对上述现有技术的不足，本专利技术提出了一种基于金融事理知识图谱的推理问答方法，优化了传统知识图谱难以进行事件推理的缺陷。

2、本专利技术提出的一种基于金融事理知识图谱的推理问答方法，该方法包括如下步骤：

3、步骤1：获取句子级或篇章级的语料并进行预处理，构建语料数据集；

4、步骤2：在语料数据集中随机划分出训练集，并采用课程学习将训练集中的语料按照语料的难度等级分为若干个语料组；

5、步骤3：构建事件抽取模型；

6、步骤4：采用课程学习的方法利用训练集训练事件抽取模型，得到训练好的事件抽取模型；

7、步骤5：获取未作标注的生语料并输入训练好的事件抽取模型中进行事件与事件关系的抽取，利用抽取出的事件分别构建候选事件链和候选事件的事理知识图谱；

8、步骤6：获取问题并输入训练好的事件抽取模型进行提取目标事件；

9、步骤7：根据目标事件在候选事件的事理知识图谱中检索候选事件，基于候选事件链将候选事件进行向量化表示并更新得到新的候选事件的事件表示，再利用线性层对新的候选事件的事件表示进行事件预测，得到候选事件的预测概率；

10、步骤8：根据候选事件的预测概率确定问题中目标事件的预测回答；

11、步骤1中所述对获取的语料进行预处理构建语料数据集的方法为包括：对获取的语料进行数据清洗，采用bio标注法对数据清洗后的语料中的每个单词分别标注事件三元组标签，所述事件三元组标签包括事件、事件属性以及事件关系；将事件三元组标签存入标签序列，将语料中的每个单词和与单词对应的标签组合在一起构建语料数据集；

12、步骤2中所述采用课程学习将训练集中的语料按照语料的难度等级分为若干组的方法为：基于不同语料场景定义一个用于量化语料的难度等级难度测量器，采用难度测量器对训练集中的语料进行打分，并根据得分将训练集中的语料分为个语料组；其中组别数量与语料的数量成正相关，组别数量与难度等级的加权分的方差成正相关；

13、步骤3中所述事件抽取模型包括依次连接的输入层、bert层、双向长短时记忆网络bilstm层、条件随机场crf层和输出层；其中所述输入层，用于向事件抽取模型中输入待提取事件的语料；所述bert层由若干个堆叠的双向transformer层组成，用于为输入事件抽取模型的语料中每个单词计算一个融合上下文信息的向量表示；所述bilstm层由前向lstm与后向lstm组合而成，用于对融合上下文信息的向量表示进行特征提取，获得预测标签序列；所述crf层用于学习句子的约束条件并过滤错误的预测标签序列，得到最终的标签序列，完成事件和事件关系的抽取；

14、所述步骤4中进一步包括：

15、步骤4.1：将训练集中难度等级最低的语料组输入事件抽取模型进行训练，得到该语料组最终的标签序列；

16、步骤4.2：计算该语料组最终的标签序列与该语料组真实标记的标签序列的损失值，若该损失值收敛则停止训练，若该损失值不收敛则重新利用该语料组进行训练，直至该损失值收敛或达到预设的训练轮次为止；

17、步骤4.3：按照难度等级向已完成训练的语料组中逐次加入语料组进行数据混合，从混合后的语料进行随机采样，并利用采样的语料训练事件抽取模型，重复步骤4.1-4.2直至训练集中的所有语料组都参与训练；

18、步骤5中所述事理知识图谱为一个有向有环图，其中将事件作为图中的节点是事件；将事件关系作为图中节点和节点之间的有向边，根据由事件抽取模型抽取的事件与事件关系构建事理知识图谱；

19、步骤5中所述候选事件链的构建方法为：根据抽取的事件和事件关系构建事件对，并将含有相同事件的事件对按照事件关系进行合并，得到候选事件链；

20、所述步骤7进一步包括：

21、步骤7.1：根据目标事件在候选事件的事理知识图谱中进行匹配检索，得到候选事件的子图，并确定候选事件；

22、步骤7.2：利用事件抽取模型构建候选事件的事件表示，利用图神经网络更新候选事件的事件并得到新的候选事件的事件表示；

23、步骤7.3：利用线性层对新的候选事件的事件表示中由[cls]字符表示的内容进行事件预测，得到候选事件的预测概率；

24、步骤7.2中所述构建候选事件的事件表示的方法包括：将候选事件链输入训练好的事件抽取模型的bert层中，利用事件抽取模型中bert层的第s1层将候选事件链中的每个事件字符转化为候选事件的向量初始化表示；并利用候选事件与候选事件的向量初始化形成事件矩阵；使用多头注意力机制聚合候选事件的向量初始化表示，得到候选事件的事件表示；

25、步骤7.2中所述更新候选事件的事件并得到新的候选事件的事件表示的过程包括：通过采用图神经网络更新候选事件的事件表示，并利用多头自注意力机制将更新后的事件表示与事件抽取模型中bert层的第s2层输出的上下文表示进行融合，并将融合后的结果依次输入一个残差连接层和bert层中剩余的transformer层，得到新的候选事件的事件表示。

26、采用上述技术方案所产生本文档来自技高网...

【技术保护点】

1.一种基于金融事理知识图谱的推理问答方法，其特征在于，该方法包括如下步骤：

2.根据权利要求1所述的一种基于金融事理知识图谱的推理问答方法，其特征在于，步骤1中所述对获取的语料进行预处理构建语料数据集的方法为包括：对获取的语料进行数据清洗，采用BIO标注法对数据清洗后的语料中的每个单词分别标注事件三元组标签，所述事件三元组标签包括事件、事件属性以及事件关系；将事件三元组标签存入标签序列，将语料中的每个单词和与单词对应的标签组合在一起构建语料数据集。

3.根据权利要求1所述的一种基于金融事理知识图谱的推理问答方法，其特征在于，步骤2中所述采用课程学习将训练集中的语料按照语料的难度等级分为若干组的方法为：基于不同语料场景定义一个用于量化语料的难度等级难度测量器，采用难度测量器对训练集中的语料进行打分，并根据得分将训练集中的语料分为个语料组；其中组别数量与语料的数量成正相关，组别数量与难度等级的加权分的方差成正相关。

4.根据权利要求1所述的一种基于金融事理知识图谱的推理问答方法，其特征在于，步骤3中所述事件抽取模型包括依次连接的输入层、Bert层

5.根据权利要求1所述的一种基于金融事理知识图谱的推理问答方法，其特征在于，所述步骤4中进一步包括：

6.根据权利要求1所述的一种基于金融事理知识图谱的推理问答方法，其特征在于，步骤5中所述事理知识图谱为一个有向有环图，其中将事件作为图中的节点是事件；将事件关系作为图中节点和节点之间的有向边，根据由事件抽取模型抽取的事件与事件关系构建事理知识图谱。

7.根据权利要求1所述的一种基于金融事理知识图谱的推理问答方法，其特征在于，步骤5中所述候选事件链的构建方法为：根据抽取的事件和事件关系构建事件对，并将含有相同事件的事件对按照事件关系进行合并，得到候选事件链。

8.根据权利要求4所述的一种基于金融事理知识图谱的推理问答方法，其特征在于，所述步骤7进一步包括：

9.根据权利要求8所述的一种基于金融事理知识图谱的推理问答方法，其特征在于，步骤7.2中所述构建候选事件的事件表示的方法包括：将候选事件链输入训练好的事件抽取模型的Bert层中，利用事件抽取模型中Bert层的第S1层将候选事件链中的每个事件字符转化为候选事件的向量初始化表示；并利用候选事件与候选事件的向量初始化形成事件矩阵；使用多头注意力机制聚合候选事件的向量初始化表示，得到候选事件的事件表示。

10.根据权利要求9所述的一种基于金融事理知识图谱的推理问答方法，其特征在于，步骤7.2中所述更新候选事件的事件并得到新的候选事件的事件表示的过程包括：通过采用图神经网络更新候选事件的事件表示，并利用多头自注意力机制将更新后的事件表示与事件抽取模型中Bert层的第S2层输出的上下文表示进行融合，并将融合后的结果依次输入一个残差连接层和Bert层中剩余的Transformer层，得到新的候选事件的事件表示。

...

【技术特征摘要】

1.一种基于金融事理知识图谱的推理问答方法，其特征在于，该方法包括如下步骤：

2.根据权利要求1所述的一种基于金融事理知识图谱的推理问答方法，其特征在于，步骤1中所述对获取的语料进行预处理构建语料数据集的方法为包括：对获取的语料进行数据清洗，采用bio标注法对数据清洗后的语料中的每个单词分别标注事件三元组标签，所述事件三元组标签包括事件、事件属性以及事件关系；将事件三元组标签存入标签序列，将语料中的每个单词和与单词对应的标签组合在一起构建语料数据集。

4.根据权利要求1所述的一种基于金融事理知识图谱的推理问答方法，其特征在于，步骤3中所述事件抽取模型包括依次连接的输入层、bert层、双向长短时记忆网络bilstm层、条件随机场crf层和输出层；其中所述输入层，用于向事件抽取模型中输入待提取事件的语料；所述bert层由若干个堆叠的双向transformer层组成，用于为输入事件抽取模型的语料中每个单词计算一个融合上下文信息的向量表示；所述bilstm层由前向lstm与后向lstm组合而成，用于对融合上下文信息的向量表示进行特征提取，获得预测标签序列；所述crf层用于学习句子的约束条件并过滤错误的预测标签序列，得到最终的标签序列，完成事件和事件关系的抽取。

5.根据权利要求1所述...

【专利技术属性】
技术研发人员：孙永佼，周宪炜，路青，季航旭，赵相国，
申请(专利权)人：东北大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人