一种多模态金融文档的事件抽取方法和系统技术方案

技术编号:34476178 阅读:14 留言:0更新日期:2022-08-10 08:51
本发明专利技术公开了一种多模态金融文档的事件抽取方法和系统,属于数据处理技术领域,所述方法包括:获取待抽取区域及其对象,所述对象包括表格和文本;对所述表格进行解析,获得表格的内容,所述内容包括事件和论元;根据所述表格的事件筛对所述文本进行筛选,获得相关句子;从所述相关句子中提取论元角色和/或补充论元。从半结构化表格进行相对容易的信息抽取,然后利用从表格中获取的信息来辅助和改进从文本信息抽取,提高抽取效率和可靠性;可以将表格和文本中抽取的信息互相补充,得到更完整的信息抽取结果。整的信息抽取结果。整的信息抽取结果。

【技术实现步骤摘要】
一种多模态金融文档的事件抽取方法和系统


[0001]本专利技术涉及数据处理
,具体涉及一种多模态金融文档的事件抽取方法和系统。

技术介绍

[0002]金融文档的事件抽取(Event Extraction)是对金融文档的结构化处理的关键内容,对构建知识图谱(Knowledge Graph)以及事件/事理图谱(Event Graph)提供基础的数据支持。事件抽取包括:识别事件类型(Event Type)和事件论元(Event Argument)。
[0003]在金融专业领域中,通常会根据任务需要定义相关的事件类型和论元,以股权相关为例:增资事件类型,提取的论元包括:股东名称,增资金额,增资价格,增加的股数,出资方式等;减资事件类型,提取的论元包括:股东名称,减资金额,减资价格等;转让事件类型,提取的论元包含:出让方,受让方,转让金额,转让价格,转让股数,转让出资额等。根据任务需要和金融文档披露的详细程度,某些论元是可选的。
[0004]在金融文档中,大多为多模态(Multi

Modal)文档:文本和表格混合(hybrid)数据形式。这种混合的数据形式广泛出现在各种各样的场景中,例如科技报告、医疗报告、金融报告文档中。现有技术中多模态(Multi

Modal)文档的识别,通常包括文档级事件抽取方法,以及基于文本和表格混合数据的问答方法(Q&A for Hybrid of Textualand Tabular data)。文档级事件抽取方法如以下文献:《文档级事件抽取方法:Doc2EDAG》(Doc2EDAG:An End

to

End Document

levelFramework for Chinese FinancialEvent Extraction,EMNLP

2019,清华大学,Microsoft Research)、《基于GIT模型的文档级事件抽取》(Document

levelEvent Extraction via Heterogeneous Graph

based Interaction Modelwith a Tracker,ACL

2021,Peking University,Peng Cheng Laboratory,Shenzhen,ByteDance AILab)。基于文本和表格混合数据的问答方法如以下文献:《多模态文档的问答表示》(Representations for Question Answering from Documents with Tables and Text,EACL

2021,Google Research,University of Washington)、《基于开放领域问答的混合文本和表格证据的双阅读解码器》(Dual Reader

Parser on Hybrid Textual and Tabular Evidence for Open Domain Question Answering,ACL

2021,AWS AI Labs,Alexander Hanbo Li,Patrick Ng,Peng Xu,HenghuiZhu,Zhiguo Wang,Bing Xiang)分别从文本和表格中查询候选答案,然后一起排序选择;《TAT

QA:金融领域表格和文本内容混合的问答基准》(TAT

QA:A Question Answering Benchmark on a Hybrid of Tabular and Textual Content in Finance,ACL

2021,National University of Singapore,6Estates Pte Ltd,Sichuan University,Bloomberg)提出了评价数据集TAT

QA和基线的方法。
[0005]文档级事件抽取方法虽然相对于传统的句子级事件抽取方法(只能从单个句子中抽取信息)有进步,但依然存在一些问题:1.只聚焦于从文本中进行事件抽取,但在很多情况中事件的一些事件论元是从表格中才能获取,所以忽略表格,很可能会无法抽取到完整
的事件信息;2.目前处理的文档长度相对较短,而实际场景中很多金融文档长达数百页。
[0006]基于文本和表格混合数据的问答方法存在以下问题:问答(Q&A)任务和事件抽取任务虽然有一定关联,在某些情况下可以构造特定的prompt问题进而通过问答的方式来逐个抽取事件的论元,但是通常来说两种任务的侧重点不同:问答关注具体的局部信息;而事件抽取期望获得事件的完整描述信息。目前问答方法精度相当低,不能满足当前金融应用的需求。
[0007]文献《多模态文档的问答表示》中,以表格为主,用周围文字来补充增强表格的表示,最终答案都是从表格中获取的。而很多实际的场景答案需要从文本中获得。
[0008]文献《基于开放领域问答的混合文本和表格证据的双阅读解码器》中,则是利用两个独立的解码器(parser)分别从文本和表格中寻找答案,然后将从两个来源的候选答案一起排序,并没有考虑文本内容和表格内容之间的语义关联性。而实际上很多情况下,金融文档,涉及到一些重要事项,为了保证表述的精确性,通常同时使用文字和表格对同一具体事件进行说明,只是有些事件说明的详细程度和角度有所不同。
[0009]文献《TAT

QA:金融领域表格和文本内容混合的问答基准》中,数据集是靠手工做的文本

表格匹配,虽然在一定程度上考虑了文本和表格之间的关联和交互,但是只是简单的将表格按行展平成文字序列输入RoBERTa模型,还是使用常规的序列标注方法来获得候选答案或者中间答案,然后用一系列分类器进行后续处理,并没有充分利用表格中的结构化信息。
[0010]可见现有技术中,上述方法都没有利用文本和表格之间的关联性,导致事件抽取的效率低下。

技术实现思路

[0011]针对现有技术中存在的上述技术问题,本专利技术提供一种多模态金融文档的事件抽取方法和系统,先从半结构化表格进行相对容易的信息抽取,然后利用从表格中获取的信息来辅助和改进从文本信息抽取,提高抽取效率和可靠性;可以将表格和文本中抽取的信息互相补充,得到更完整的信息抽取结果。
[0012]本专利技术公开了一种多模态金融文档的事件抽取方法,所述方法包括:获取待抽取区域及其对象,所述对象包括表格和文本;对所述表格进行解析,获得表格的内容,所述内容包括事件和论元;根据所述表格的事件筛对所述文本进行筛选,获得相关句子;从所述相关句子中提取论元角色和/或补充论元。
[0013]所述表格的内容包括实体,从所述相关句子中提取论元角色本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态金融文档的事件抽取方法,其特征在于,所述方法包括:获取待抽取区域及其对象,所述对象包括表格和文本;对所述表格进行解析,获得表格的内容,所述内容包括事件和论元;根据所述表格的事件筛对所述文本进行筛选,获得相关句子;从所述相关句子中提取论元角色和/或补充论元。2.根据权利要求1所述的事件抽取方法,其特征在于,所述表格的内容包括实体,从所述相关句子中提取论元角色的方法包括:将表格的实体与所述相关句子进行匹配获得论元角色和论元提及;获得相关句子的方法包括:根据表格的内容或表格的标题,获得所述表格的事件;通过句子文本分类器,获得所述句子的分类;根据所述事件和分类,对句子进行筛选。3.根据权利要求1所述的事件抽取方法,其特征在于,从相关句子中提取补充论元的方法包括:句子分类过滤方法、序列标注方法或机器学习的方法,所述机器学习的方法基于预训练语言模型的序列标注法、基于预训练语言模型的机器阅读理解法或Prompt法。4.根据权利要求3所述的事件抽取方法,基于预训练语言模型的序列标注法包括:通过预训练语言模型对实体进行编码,获得第一编码;在所述第一编码中,加入实体类型的向量,获得第二编码;通过预训练语言模型对相关句子进行编码,获得第三编码;在第三编码的与所述实体匹配部分的中,加上实体类型编码;对相关句子中未匹配部分,进行标注后,利用序列标注的方法获得补充论元;基于预训练语言模型的机器阅读理解法包括:将补充论元抽取问题定义为一个问答问题;基于所述问答问题,在所述句子中找出所述问题的答案,获得补充论元;Prompt法为将事件论元的抽取问题定义为一个通过seq2seq的方式直接产生答案的方法。5.根据权利要求1所述的事件抽取方法,其特征在于,获取待抽取区域的方法包括:对所述金融文档进行版面识别,获得标题、文本、表格和图形;根据标题的视觉特征和文本特征,识别标题的层级;根据所述标题的层级,获得金融文档的层级结构;根据所述层级结构,定位并分割待抽取区域。6.根据权利要求5所述的事件抽取方法,其特征在于,所述待抽取区域还包括以下任一对象或它们的组合:图片、图片的说明文字、页眉、页脚、页码、表格的标...

【专利技术属性】
技术研发人员:王俊陈玉婷徐阳春侯启予向俊夫
申请(专利权)人:南京吾道知信信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1