一种事件要素自动抽取系统及方法技术方案

技术编号:38619920 阅读:13 留言:0更新日期:2023-08-31 18:24
本发明专利技术公开了人工智能自然语言处理技术领域的一种事件要素自动抽取系统及方法,包括模型迭代模块和数据迭代模块;模型迭代模块用于根据标注数据集迭代训练基于双态Prompt的事件要素抽取模型,还用于获取数据迭代模型生成的新的标注数据,更新标注数据集;数据迭代模块用于通过相似度度量从未标注的文本数据中获取与标注数据集中事件要素上下文相似的相似上下文,通过模型迭代模块训练的基于双态Prompt的事件要素抽取模型,从相似上下文中抽取事件要素,还用于根据事件要素和对应的相似上下文生成新的标注数据。本发明专利技术能够在只有少量标注数据样本的情况下,建立不同事件类型之间的联系,快速、准确地提取事件要素。准确地提取事件要素。准确地提取事件要素。

【技术实现步骤摘要】
一种事件要素自动抽取系统及方法


[0001]本专利技术涉及一种事件要素自动抽取系统及方法,属于人工智能自然语言处理


技术介绍

[0002]随着金融行业对舆情数据监测与分析的需求与日俱增,对舆情数据进行深度挖掘逐渐成为金融行业的一大研究重点,其中,对金融事件的相关要素的抽取是挖掘舆情数据的重要基础。因为金融领域的部分公告文件一般是客观的事实陈述,且事件要素基本都包含在文件内容中,所以金融事件的相关要素可以利用自然语言处理技术从上市公司的公告文件中自动解析出来。事件要素自动抽取可以产生以下价值:(1)减少研究人员搜集、整理和加工公告等数据的重复性工作;(2)为舆情数据的监测与分析提供数据基础;(3)该技术可以帮助研究人员快速获得事件的结构化要素信息,加速研究人员的调研分析过程。
[0003]事件要素自动抽取本质上是一个对数据进行结构化的过程,即将事件公告文件视作一个非结构化的数据,根据该数据自动抽取出对应事件的结构化的要素信息。目前市面上比较常用的方法主要有两大类,一类是基于规则模板;另一类是基于深度神经网络的方法。基于深度神经网络的要素提取方法又可以细分为基于序列标注的方法、基于机器阅读理解的方法以及基于序列生成的方法。
[0004]基于规则匹配的方法,首先归纳并整理每类公告中的事件类型对应要抽取的要素内容;其次,对每类事件的每种要素类型设计规则提取模板,根据每种要素内容的格式特征等提取对应的要素。例如,要提取“债券购回”类的“回购时间”要素,通过归纳得出该要素的出现格式一般是“回购日期为XXXX年XX月XX日”,利用该规则模板去文本中匹配对应的内容,从而获取回购时间;最后,将所有抽取的要素文本以字典的形式保存在一起,得到最终的结构化要素内容文本。
[0005]基于序列标注的方法主要是仿照命名实体识别任务,采用“编码器+分类器”的结构,利用一个编码器对输入文本进行编码,并通过分类器对文本中的每个词进行分类,判断该词是否属于事件要素内容。最后再对抽取出的文本短语与要素进行匹配。基于序列标注的方法的整体框架如图1所示。
[0006]基于机器阅读理解的方法是将要素抽取任务转换成问答任务,主要的思路是设计问题模板,用阅读理解的方式抽取文本中的要素。例如,对于“债券购回”类事件,“回购时间”要素对应的问题可以设计成“该债券是哪一天回购的?”或“回购日期是?”,然后将该问题与待抽取的文本拼接到一起输入编码器中,然后对文本中的内容进行标注。基于机器阅读理解的方法与基于序列标注采用的基础模型框架结构是相似的,主要区别在于输入输出的内容和格式。基于机器阅读理解的方法的整体框架如图2所示。
[0007]基于序列生成的事件要素抽取方法是用生成的方式解决事件要素抽取任务。该方法一般会利用各类预训练的序列生成模型,如BART、T5等模型,输入事件类型和事件所有待抽取要素组成的提示性信息和待抽取文本,模型会依次解码出各个要素的内容。例如,“债
券购回”类事件的要素抽取的提示性信息模板是“债券购回[SEP]回购时间[ARG]回购数量[ARG]…”
其中,“[SEP]”、“[ARG]”等都属于人为设计的特殊的分隔符。基于序列生成的方法的整体框图如图3所示。
[0008]上述方法虽然能够实现事件要素自动抽取,但是在实际使用中仍存在部分问题:
[0009]基于规则匹配的方法采用的规则模板的样式过于单一死板,要素匹配时兼容性较差,要素内容换个说法就匹配不到了;匹配规则的归纳、维护和扩展工作需要较高的人力成本和领域知识。
[0010]基于序列标注的要素生成方法中,每一个类别都依赖大量的标注数据集对模型进行训练,但是金融领域的事件种类多,标注数据较少,因此模型准确率较差;迁移性差,在新增的事件类型上表现很差,需要加入新的事件类型的训练语料对模型进行重新训练,维护成本高。
[0011]基于机器阅读理解的要素抽取方法,对于每类事件的每种要素都要推理一次,因此该方法所需的推理时间较长;每类事件之间以及一类事件中的每种要素之间都是分开训练的,没有建立相互联系。
[0012]基于序列生成的事件要素抽取方法的表现依赖模型的预训练和提示信息的设计,现有的方法缺乏对不同事件类型之间的联系的建模,并且输出的生成文本不能保证全部来源于输入文本。

技术实现思路

[0013]为了解决现有技术中存在的问题,本专利技术提出了一种事件要素自动抽取系统及方法,通过基于相似性度量的数据处理方法和基于双态Prompt的序列生成模型,在只有少量标注数据样本的情况下,建立不同事件类型之间的联系,快速、准确地提取事件要素。
[0014]为解决上述技术问题,本专利技术采用了如下技术手段:
[0015]第一方面,本专利技术提出了一种事件要素自动抽取系统,包括模型迭代模块和数据迭代模块;
[0016]所述模型迭代模块用于根据标注数据集迭代训练基于双态Prompt的事件要素抽取模型,还用于获取数据迭代模型生成的新的标注数据,更新所述标注数据集;
[0017]所述数据迭代模块用于通过相似度度量从未标注的文本数据中获取与所述标注数据集中事件要素上下文相似的相似上下文,通过所述模型迭代模块训练的基于双态Prompt的事件要素抽取模型,从相似上下文中抽取事件要素,还用于根据事件要素和对应的相似上下文生成新的标注数据。
[0018]结合第一方面,进一步的,所述基于双态Prompt的事件要素抽取模型根据静态Prompt、动态Prompt和当前上下文文本进行事件要素抽取,其中,当前上下文文本为输入基于双态Prompt的事件要素抽取模型的事件要素上下文或相似上下文。
[0019]结合第一方面,进一步的,所述静态Prompt包括多个事件类型和每个事件类型下待抽取的事件要素模板。
[0020]结合第一方面,进一步的,所述动态Prompt的获取方法为:
[0021]对属于同一个上层类别的多个事件类型进行聚合,得到K个事件向量;
[0022]根据专家知识获取当前事件类型与K个事件向量的相关性,得到第一相关性权重;
[0023]通过文本语义分析,获取当前上下文文本与K个事件向量的相似度,得到第二相关性权重;
[0024]根据第一相关性权重和第二相关性权重对K个事件向量进行加权聚合,得到当前的动态Prompt。
[0025]结合第一方面,进一步的,在数据迭代模块中,通过相似度度量从未标注的文本数据中获取与所述标注数据集中事件要素上下文相似的相似上下文,包括:
[0026]将未标注的文本数据中每连续3句作为一个相似度的计算单元,得到多个计算单元;
[0027]对标注数据集中的所有事件要素上下文和未标注的文本数据中的所有计算单元进行向量化,得到事件要素上下文特征向量和计算单元特征向量;
[0028]通过相似度度量算法计算每个计算单元特征向量与每个事件要素上下文特征向量之间的相似度;
[0029]当相似度超过预设阈值,则该计算单元特征向量对应的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种事件要素自动抽取系统,其特征在于,包括模型迭代模块和数据迭代模块;所述模型迭代模块用于根据标注数据集迭代训练基于双态Prompt的事件要素抽取模型,还用于获取数据迭代模型生成的新的标注数据,更新所述标注数据集;所述数据迭代模块用于通过相似度度量从未标注的文本数据中获取与所述标注数据集中事件要素上下文相似的相似上下文,通过所述模型迭代模块训练的基于双态Prompt的事件要素抽取模型,从相似上下文中抽取事件要素,还用于根据事件要素和对应的相似上下文生成新的标注数据。2.根据权利要求1所述的事件要素自动抽取系统,其特征在于,所述基于双态Prompt的事件要素抽取模型根据静态Prompt、动态Prompt和当前上下文文本进行事件要素抽取,其中,当前上下文文本为输入基于双态Prompt的事件要素抽取模型的事件要素上下文或相似上下文。3.根据权利要求2所述的事件要素自动抽取系统,其特征在于,所述静态Prompt包括多个事件类型和每个事件类型下待抽取的事件要素模板。4.根据权利要求3所述的事件要素自动抽取系统,其特征在于,所述动态Prompt的获取方法为:对属于同一个上层类别的多个事件类型进行聚合,得到K个事件向量;根据专家知识获取当前事件类型与K个事件向量的相关性,得到第一相关性权重;通过文本语义分析,获取当前上下文文本与K个事件向量的相似度,得到第二相关性权重;根据第一相关性权重和第二相关性权重对K个事件向量进行加权聚合,得到当前的动态Prompt。5.根据权利要求1所述的事件要素自动抽取系统,其特征在于,在数据迭代模块中,通过相似度度量从未标注的文本数据中获取与所述标注数据集中事件要素上下文相似的相似上下文,包括:将未标注的文本数据中每连续3句作为一个相似度的计算单元,得到多个计算单元;对标注数据集中的所有事件要素上下文和未标注的文本数据中的所有计算单元进行向量化,得到事件要素上下文特征向量和计算单元特征向量;通过相似度度量算法计算每个计算单元特征向量与每个事件要素上下文特征向量之...

【专利技术属性】
技术研发人员:叶超姜聪聪王玲曾文秋朱阿柯潘明慧邱震宇董臣令方芳朱江涛
申请(专利权)人:华泰证券股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1