一种事件要素自动抽取系统及方法技术方案

技术编号：38619920 阅读：13 留言：0更新日期：2023-08-31 18:24

本发明专利技术公开了人工智能自然语言处理技术领域的一种事件要素自动抽取系统及方法，包括模型迭代模块和数据迭代模块；模型迭代模块用于根据标注数据集迭代训练基于双态Prompt的事件要素抽取模型，还用于获取数据迭代模型生成的新的标注数据，更新标注数据集；数据迭代模块用于通过相似度度量从未标注的文本数据中获取与标注数据集中事件要素上下文相似的相似上下文，通过模型迭代模块训练的基于双态Prompt的事件要素抽取模型，从相似上下文中抽取事件要素，还用于根据事件要素和对应的相似上下文生成新的标注数据。本发明专利技术能够在只有少量标注数据样本的情况下，建立不同事件类型之间的联系，快速、准确地提取事件要素。准确地提取事件要素。准确地提取事件要素。

全部详细技术资料下载

【技术实现步骤摘要】
一种事件要素自动抽取系统及方法

[0001]本专利技术涉及一种事件要素自动抽取系统及方法，属于人工智能自然语言处理

技术介绍

[0002]随着金融行业对舆情数据监测与分析的需求与日俱增，对舆情数据进行深度挖掘逐渐成为金融行业的一大研究重点，其中，对金融事件的相关要素的抽取是挖掘舆情数据的重要基础。因为金融领域的部分公告文件一般是客观的事实陈述，且事件要素基本都包含在文件内容中，所以金融事件的相关要素可以利用自然语言处理技术从上市公司的公告文件中自动解析出来。事件要素自动抽取可以产生以下价值：(1)减少研究人员搜集、整理和加工公告等数据的重复性工作；(2)为舆情数据的监测与分析提供数据基础；(3)该技术可以帮助研究人员快速获得事件的结构化要素信息，加速研究人员的调研分析过程。
[0003]事件要素自动抽取本质上是一个对数据进行结构化的过程，即将事件公告文件视作一个非结构化的数据，根据该数据自动抽取出对应事件的结构化的要素信息。目前市面上比较常用的方法主要有两大类，一类是基于规则模板；另一类是基于深度神经网络的方法。基于深度神经网络的要素提取方法又可以细分为基于序列标注的方法、基于机器阅读理解的方法以及基于序列生成的方法。
[0004]基于规则匹配的方法，首先归纳并整理每类公告中的事件类型对应要抽取的要素内容；其次，对每类事件的每种要素类型设计规则提取模板，根据每种要素内容的格式特征等提取对应的要素。例如，要提取“债券购回”类的“回购时间”要素，通过归纳得出该要素的出现格式一般是“回购日期为XX...

【技术保护点】

【技术特征摘要】
1.一种事件要素自动抽取系统，其特征在于，包括模型迭代模块和数据迭代模块；所述模型迭代模块用于根据标注数据集迭代训练基于双态Prompt的事件要素抽取模型，还用于获取数据迭代模型生成的新的标注数据，更新所述标注数据集；所述数据迭代模块用于通过相似度度量从未标注的文本数据中获取与所述标注数据集中事件要素上下文相似的相似上下文，通过所述模型迭代模块训练的基于双态Prompt的事件要素抽取模型，从相似上下文中抽取事件要素，还用于根据事件要素和对应的相似上下文生成新的标注数据。2.根据权利要求1所述的事件要素自动抽取系统，其特征在于，所述基于双态Prompt的事件要素抽取模型根据静态Prompt、动态Prompt和当前上下文文本进行事件要素抽取，其中，当前上下文文本为输入基于双态Prompt的事件要素抽取模型的事件要素上下文或相似上下文。3.根据权利要求2所述的事件要素自动抽取系统，其特征在于，所述静态Prompt包括多个事件类型和每个事件类型下待抽取的事件要素模板。4.根据权利要求3所述的事件要素自动抽取系统，其特征在于，所述动态Prompt的获取方法为：对属于同一个上层类别的多个事件类型进行聚合，得到K个事件向量；根据专家知识获取当前事件类型与K个事件向量的相关性，得到第一相关性权重；通过文本语义分析，获取当前上下文文本与K个事件向量的相似度，得到第二相关性权重；根据第一相关性权重和第二相关性权重对K个事件向量进行加权聚合，得到当前的动态Prompt。5.根据权利要求1所述的事件要素自动抽取系统，其特征在于，在数据迭代模块中，通过相似度度量从未标注的文本数据中获取与所述标注数据集中事件要素上下文相似的相似上下文，包括：将未标注的文本数据中每连续3句作为一个相似度的计算单元，得到多个计算单元；对标注数据集中的所有事件要素上下文和未标注的文本数据中的所有计算单元进行向量化，得到事件要素上下文特征向量和计算单元特征向量；通过相似度度量算法计算每个计算单元特征向量与每个事件要素上下文特征向量之...

【专利技术属性】
技术研发人员：叶超，姜聪聪，王玲，曾文秋，朱阿柯，潘明慧，邱震宇，董臣令，方芳，朱江涛，
申请(专利权)人：华泰证券股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人