一种多模态金融文档的事件抽取方法和系统技术方案

技术编号：34476178 阅读：14 留言：0更新日期：2022-08-10 08:51

本发明专利技术公开了一种多模态金融文档的事件抽取方法和系统，属于数据处理技术领域，所述方法包括：获取待抽取区域及其对象，所述对象包括表格和文本；对所述表格进行解析，获得表格的内容，所述内容包括事件和论元；根据所述表格的事件筛对所述文本进行筛选，获得相关句子；从所述相关句子中提取论元角色和/或补充论元。从半结构化表格进行相对容易的信息抽取，然后利用从表格中获取的信息来辅助和改进从文本信息抽取，提高抽取效率和可靠性；可以将表格和文本中抽取的信息互相补充，得到更完整的信息抽取结果。整的信息抽取结果。整的信息抽取结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种多模态金融文档的事件抽取方法和系统

[0001]本专利技术涉及数据处理
，具体涉及一种多模态金融文档的事件抽取方法和系统。

技术介绍

[0002]金融文档的事件抽取(Event Extraction)是对金融文档的结构化处理的关键内容，对构建知识图谱(Knowledge Graph)以及事件/事理图谱(Event Graph)提供基础的数据支持。事件抽取包括：识别事件类型(Event Type)和事件论元(Event Argument)。
[0003]在金融专业领域中，通常会根据任务需要定义相关的事件类型和论元，以股权相关为例：增资事件类型，提取的论元包括：股东名称，增资金额，增资价格，增加的股数，出资方式等；减资事件类型，提取的论元包括：股东名称，减资金额，减资价格等；转让事件类型，提取的论元包含：出让方，受让方，转让金额，转让价格，转让股数，转让出资额等。根据任务需要和金融文档披露的详细程度,某些论元是可选的。
[0004]在金融文档中，大多为多模态(Multi
‑
Modal)文档：文本和表格混合(hybrid)数据形式。这种混合的数据形式广泛出现在各种各样的场景中，例如科技报告、医疗报告、金融报告文档中。现有技术中多模态(Multi
‑
Modal)文档的识别，通常包括文档级事件抽取方法，以及基于文本和表格混合数据的问答方法(Q&A for Hybrid of Textualand Tabular data)。文档级事件抽取方法如以下文...

【技术保护点】

【技术特征摘要】
1.一种多模态金融文档的事件抽取方法，其特征在于，所述方法包括：获取待抽取区域及其对象，所述对象包括表格和文本；对所述表格进行解析，获得表格的内容，所述内容包括事件和论元；根据所述表格的事件筛对所述文本进行筛选，获得相关句子；从所述相关句子中提取论元角色和/或补充论元。2.根据权利要求1所述的事件抽取方法，其特征在于，所述表格的内容包括实体，从所述相关句子中提取论元角色的方法包括：将表格的实体与所述相关句子进行匹配获得论元角色和论元提及；获得相关句子的方法包括：根据表格的内容或表格的标题，获得所述表格的事件；通过句子文本分类器，获得所述句子的分类；根据所述事件和分类，对句子进行筛选。3.根据权利要求1所述的事件抽取方法，其特征在于，从相关句子中提取补充论元的方法包括：句子分类过滤方法、序列标注方法或机器学习的方法，所述机器学习的方法基于预训练语言模型的序列标注法、基于预训练语言模型的机器阅读理解法或Prompt法。4.根据权利要求3所述的事件抽取方法，基于预训练语言模型的序列标注法包括：通过预训练语言模型对实体进行编码，获得第一编码；在所述第一编码中，加入实体类型的向量，获得第二编码；通过预训练语言模型对相关句子进行编码，获得第三编码；在第三编码的与所述实体匹配部分的中，加上实体类型编码；对相关句子中未匹配部分，进行标注后，利用序列标注的方法获得补充论元；基于预训练语言模型的机器阅读理解法包括：将补充论元抽取问题定义为一个问答问题；基于所述问答问题，在所述句子中找出所述问题的答案，获得补充论元；Prompt法为将事件论元的抽取问题定义为一个通过seq2seq的方式直接产生答案的方法。5.根据权利要求1所述的事件抽取方法，其特征在于，获取待抽取区域的方法包括：对所述金融文档进行版面识别，获得标题、文本、表格和图形；根据标题的视觉特征和文本特征，识别标题的层级；根据所述标题的层级，获得金融文档的层级结构；根据所述层级结构，定位并分割待抽取区域。6.根据权利要求5所述的事件抽取方法，其特征在于，所述待抽取区域还包括以下任一对象或它们的组合：图片、图片的说明文字、页眉、页脚、页码、表格的标...

【专利技术属性】
技术研发人员：王俊，陈玉婷，徐阳春，侯启予，向俊夫，
申请(专利权)人：南京吾道知信信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人