本发明专利技术公开了一种多模态金融文档的事件抽取方法和系统,属于数据处理技术领域,所述方法包括:获取待抽取区域及其对象,所述对象包括表格和文本;对所述表格进行解析,获得表格的内容,所述内容包括事件和论元;根据所述表格的事件筛对所述文本进行筛选,获得相关句子;从所述相关句子中提取论元角色和/或补充论元。从半结构化表格进行相对容易的信息抽取,然后利用从表格中获取的信息来辅助和改进从文本信息抽取,提高抽取效率和可靠性;可以将表格和文本中抽取的信息互相补充,得到更完整的信息抽取结果。整的信息抽取结果。整的信息抽取结果。
【技术实现步骤摘要】
一种多模态金融文档的事件抽取方法和系统
[0001]本专利技术涉及数据处理
,具体涉及一种多模态金融文档的事件抽取方法和系统。
技术介绍
[0002]金融文档的事件抽取(Event Extraction)是对金融文档的结构化处理的关键内容,对构建知识图谱(Knowledge Graph)以及事件/事理图谱(Event Graph)提供基础的数据支持。事件抽取包括:识别事件类型(Event Type)和事件论元(Event Argument)。
[0003]在金融专业领域中,通常会根据任务需要定义相关的事件类型和论元,以股权相关为例:增资事件类型,提取的论元包括:股东名称,增资金额,增资价格,增加的股数,出资方式等;减资事件类型,提取的论元包括:股东名称,减资金额,减资价格等;转让事件类型,提取的论元包含:出让方,受让方,转让金额,转让价格,转让股数,转让出资额等。根据任务需要和金融文档披露的详细程度,某些论元是可选的。
[0004]在金融文档中,大多为多模态(Multi
‑
Modal)文档:文本和表格混合(hybrid)数据形式。这种混合的数据形式广泛出现在各种各样的场景中,例如科技报告、医疗报告、金融报告文档中。现有技术中多模态(Multi
‑
Modal)文档的识别,通常包括文档级事件抽取方法,以及基于文本和表格混合数据的问答方法(Q&A for Hybrid of Textualand Tabular data)。文档级事件抽取方法如以下文献:《文档级事件抽取方法:Doc2EDAG》(Doc2EDAG:An End
‑
to
‑
End Document
‑
levelFramework for Chinese FinancialEvent Extraction,EMNLP
‑
2019,清华大学,Microsoft Research)、《基于GIT模型的文档级事件抽取》(Document
‑
levelEvent Extraction via Heterogeneous Graph
‑
based Interaction Modelwith a Tracker,ACL
‑
2021,Peking University,Peng Cheng Laboratory,Shenzhen,ByteDance AILab)。基于文本和表格混合数据的问答方法如以下文献:《多模态文档的问答表示》(Representations for Question Answering from Documents with Tables and Text,EACL
‑
2021,Google Research,University of Washington)、《基于开放领域问答的混合文本和表格证据的双阅读解码器》(Dual Reader
‑
Parser on Hybrid Textual and Tabular Evidence for Open Domain Question Answering,ACL
‑
2021,AWS AI Labs,Alexander Hanbo Li,Patrick Ng,Peng Xu,HenghuiZhu,Zhiguo Wang,Bing Xiang)分别从文本和表格中查询候选答案,然后一起排序选择;《TAT
‑
QA:金融领域表格和文本内容混合的问答基准》(TAT
‑
QA:A Question Answering Benchmark on a Hybrid of Tabular and Textual Content in Finance,ACL
‑
2021,National University of Singapore,6Estates Pte Ltd,Sichuan University,Bloomberg)提出了评价数据集TAT
‑
QA和基线的方法。
[0005]文档级事件抽取方法虽然相对于传统的句子级事件抽取方法(只能从单个句子中抽取信息)有进步,但依然存在一些问题:1.只聚焦于从文本中进行事件抽取,但在很多情况中事件的一些事件论元是从表格中才能获取,所以忽略表格,很可能会无法抽取到完整
的事件信息;2.目前处理的文档长度相对较短,而实际场景中很多金融文档长达数百页。
[0006]基于文本和表格混合数据的问答方法存在以下问题:问答(Q&A)任务和事件抽取任务虽然有一定关联,在某些情况下可以构造特定的prompt问题进而通过问答的方式来逐个抽取事件的论元,但是通常来说两种任务的侧重点不同:问答关注具体的局部信息;而事件抽取期望获得事件的完整描述信息。目前问答方法精度相当低,不能满足当前金融应用的需求。
[0007]文献《多模态文档的问答表示》中,以表格为主,用周围文字来补充增强表格的表示,最终答案都是从表格中获取的。而很多实际的场景答案需要从文本中获得。
[0008]文献《基于开放领域问答的混合文本和表格证据的双阅读解码器》中,则是利用两个独立的解码器(parser)分别从文本和表格中寻找答案,然后将从两个来源的候选答案一起排序,并没有考虑文本内容和表格内容之间的语义关联性。而实际上很多情况下,金融文档,涉及到一些重要事项,为了保证表述的精确性,通常同时使用文字和表格对同一具体事件进行说明,只是有些事件说明的详细程度和角度有所不同。
[0009]文献《TAT
‑
QA:金融领域表格和文本内容混合的问答基准》中,数据集是靠手工做的文本
‑
表格匹配,虽然在一定程度上考虑了文本和表格之间的关联和交互,但是只是简单的将表格按行展平成文字序列输入RoBERTa模型,还是使用常规的序列标注方法来获得候选答案或者中间答案,然后用一系列分类器进行后续处理,并没有充分利用表格中的结构化信息。
[0010]可见现有技术中,上述方法都没有利用文本和表格之间的关联性,导致事件抽取的效率低下。
技术实现思路
[0011]针对现有技术中存在的上述技术问题,本专利技术提供一种多模态金融文档的事件抽取方法和系统,先从半结构化表格进行相对容易的信息抽取,然后利用从表格中获取的信息来辅助和改进从文本信息抽取,提高抽取效率和可靠性;可以将表格和文本中抽取的信息互相补充,得到更完整的信息抽取结果。
[0012]本专利技术公开了一种多模态金融文档的事件抽取方法,所述方法包括:获取待抽取区域及其对象,所述对象包括表格和文本;对所述表格进行解析,获得表格的内容,所述内容包括事件和论元;根据所述表格的事件筛对所述文本进行筛选,获得相关句子;从所述相关句子中提取论元角色和/或补充论元。
[0013]所述表格的内容包括实体,从所述相关句子中提取论元角色本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种多模态金融文档的事件抽取方法,其特征在于,所述方法包括:获取待抽取区域及其对象,所述对象包括表格和文本;对所述表格进行解析,获得表格的内容,所述内容包括事件和论元;根据所述表格的事件筛对所述文本进行筛选,获得相关句子;从所述相关句子中提取论元角色和/或补充论元。2.根据权利要求1所述的事件抽取方法,其特征在于,所述表格的内容包括实体,从所述相关句子中提取论元角色的方法包括:将表格的实体与所述相关句子进行匹配获得论元角色和论元提及;获得相关句子的方法包括:根据表格的内容或表格的标题,获得所述表格的事件;通过句子文本分类器,获得所述句子的分类;根据所述事件和分类,对句子进行筛选。3.根据权利要求1所述的事件抽取方法,其特征在于,从相关句子中提取补充论元的方法包括:句子分类过滤方法、序列标注方法或机器学习的方法,所述机器学习的方法基于预训练语言模型的序列标注法、基于预训练语言模型的机器阅读理解法或Prompt法。4.根据权利要求3所述的事件抽取方法,基于预训练语言模型的序列标注法包括:通过预训练语言模型对实体进行编码,获得第一编码;在所述第一编码中,加入实体类型的向量,获得第二编码;通过预训练语言模型对相关句子进行编码,获得第三编码;在第三编码的与所述实体匹配部分的中,加上实体类型编码;对相关句子中未匹配部分,进行标注后,利用序列标注的方法获得补充论元;基于预训练语言模型的机器阅读理解法包括:将补充论元抽取问题定义为一个问答问题;基于所述问答问题,在所述句子中找出所述问题的答案,获得补充论元;Prompt法为将事件论元的抽取问题定义为一个通过seq2seq的方式直接产生答案的方法。5.根据权利要求1所述的事件抽取方法,其特征在于,获取待抽取区域的方法包括:对所述金融文档进行版面识别,获得标题、文本、表格和图形;根据标题的视觉特征和文本特征,识别标题的层级;根据所述标题的层级,获得金融文档的层级结构;根据所述层级结构,定位并分割待抽取区域。6.根据权利要求5所述的事件抽取方法,其特征在于,所述待抽取区域还包括以下任一对象或它们的组合:图片、图片的说明文字、页眉、页脚、页码、表格的标...
【专利技术属性】
技术研发人员:王俊,陈玉婷,徐阳春,侯启予,向俊夫,
申请(专利权)人:南京吾道知信信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。