一种用于证券化产品报告的关键信息智能提取方法技术

技术编号:37255150 阅读:14 留言:0更新日期:2023-04-20 23:31
本发明专利技术涉及一种用于证券化产品报告的关键信息智能提取方法,与现有技术相比解决了产品信息分散繁杂、手工录入耗费成本较高的缺陷。本发明专利技术包括以下步骤:收集总结要提取的关键字段;根据说明书的目录初步定位关键信息所在位置区间;Python搜集发行说明书中关键字段的取值;特殊格式的信息处理;高亮关键词取值位置;输出智能识别结果。本发明专利技术将原本耗费大量人力成本且容易出错的手工录入工作,进行灵活智能化提取,仅需要一键导入文件,即可实现快速识别、准确提取并正确展示产品基本信息。准确提取并正确展示产品基本信息。准确提取并正确展示产品基本信息。

【技术实现步骤摘要】
一种用于证券化产品报告的关键信息智能提取方法


[0001]本专利技术涉及数据处理
,具体来说是一种用于证券化产品报告的关键信息智能提取方法。

技术介绍

[0002]随着资产证券化业务的发展,目前我国资产证券化业务的处理工作已逐渐由传统手工方式,转向由线上IT系统进行统一管理。在银行、券商、投资人等各个角色客户的使用证券化系统过程中,由于使用的业务人员很多,每个产品涵盖的基本信息也比较多,且每个业务人员想要维护和测算一个证券化产品之前,均需要先对照产品发行/募集说明书手动录入产品基本信息的一百多个字段到系统中,这是繁琐但极为重要的一个基础步骤。
[0003]由于录入指标多,且多个字段间有关联关系,又分别展示在不同菜单的页面,即使精简之后,也还需要涉及9个页面。在未专利技术智能提取方法之前,仅能依靠人工对照发行说明书逐个搜索对应字段,且需人工判断字段间的逻辑关系后一个个输入到页面,一般对业务非常熟悉的业务人员录完一个产品所有信息至少需要花费1个小时,而且还不能保证录入的准确性;而对于不熟悉业务或者不熟悉系统的业务人员录完一个产品就会花费更多的时间和精力,且极有可能出现录入误差。如果录入有误,再来返回逐个字段检查,便会浪费更多的时间和精力。鉴于之前依靠手工录入的方法稍显笨拙,且对业务人员的时间、精力、细心程度及能力要求较高,如有信息录入错误,极有可能不易察觉,导致后续测算结果有偏差。
[0004]因此,开发一个可以智能提取证券化产品披露报告关键信息的工具,能够一次性快速准确地将所有产品信息录入系统,满足业务需求,就显得极为重要且有实用价值。

技术实现思路

[0005]本专利技术的目的是为了解决现有技术中产品信息分散繁杂、手工录入耗费成本较高的缺陷,提供一种用于证券化产品报告的关键信息智能提取方法来解决上述问题。
[0006]为了实现上述目的,本专利技术的技术方案如下:
[0007]一种用于证券化产品报告的关键信息智能提取方法,包括以下步骤:
[0008]11)收集总结要提取的关键字段:根据系统录入的产品基本信息,将信息按业务内容进行划分模块,分为:立项基本信息、参与机构、资产池基本信息、日期信息、现金流归集表、支付顺序、交易结构图、基础资产总体信息、基础资产分布信息9个模块,共计68个字段;
[0009]12)根据说明书的目录初步定位关键信息所在位置区间:根据目录内容循环匹配模块关键词,首先确定提取的模块信息页码位置,再根据特殊情况进一步针对性处理;
[0010]13)Python搜集发行说明书中关键字段的取值:根据每一个模块的关键信息,逐个模块遍历查找所在位置区间的表格或者文本,批量循环匹配所有关键字段的原文信息,并对提取信息进行加工,输出系统所需格式内容;
[0011]14)特殊格式的信息处理:对于计算日、兑付日、计息日、持续购买日期描述格式的
情况进行特别处理,输出系统所需格式的内容;
[0012]15)高亮关键词取值位置:定位到所提取的关键词在原文的位置,将原文描述进行高亮标识,并输出高亮后的文档;
[0013]16)输出智能识别结果:将识别的结果放在一个csv文件中进行集中输出,供JAVA开发人员直接调用存入系统库表中,形成jpg格式的交易结构图及基础资产总体信息和基础资产分布信息的csv表格。
[0014]所述收集总结要提取的关键字段包括以下步骤:
[0015]21)进行信息分类:根据系统中产品信息页面的模块及其展示字段,人工将提取信息归纳分为9大模块68个字段,分别为:立项基本信息、参与机构、资产池基本信息、日期信息、现金流归集表、支付顺序、交易结构图、基础资产总体信息、基础资产分布信息;
[0016]22)目录提取:采用机器学习中Tf

idf文本特征提取的方法,即使用sklearn库中的API,feature_extraction.text.TfidfVectorizer来对所有的产品发行说明书中的目录内容进行关键信息提取,综合21)步得到的信息内容,最终整合得到7个主要目录,分别为“参与机构简介”、“交易结构信息”、“现金流分配机制”、“现金流归集表”、“基础资产总体信息”、“日期信息”、“主定义表”;
[0017]23)编写入参文件:在所有发行说明书中的对应模块循环提取关键字段的文字描述,并将每个字段的多个描述语按照Python正则规则编写,用顿号分隔,写入入参文件。
[0018]所述根据说明书的目录初步定位关键信息所在位置区间包括以下步骤:
[0019]31)目录内容正则化:根据22)步中获取的目录内容,对目录下的关键标题按照正则规则编写,将7个目录均用正则规则进行处理;
[0020]32)目录识别:根据pdfplumber识别文档的文本信息,根据正则后的关键信息,按照re.compile('目录|第一章|第二章|第三章|\.{10}')、re.compile('F\

')、re.compile('目录|一、|二、|三、|2.1|3.1|\.{10}')规则搜寻匹配目录在文本中的位置,并根据31)中的关键信息来匹配模块对应的页码范围。
[0021]所述Python搜集发行说明书中关键字段的取值包括以下步骤:
[0022]41)文本/表格信息提取:根据pages[p].extract_tables()循环提取所有表格或者根据pages[p].extract_text()提取文本信息;
[0023]42)表格/文本格式清洗对特殊符号、空白、换行符进行清洗,按照行列循环清洗,清洗原理如:re.sub(r'|\n|【|】|s|f|p|c|\(|\)',”,text);
[0024]43)关键字段匹配:
[0025]使用正则匹配规则循环查询,若查询到内容,则对内容进行清洗整理后,存入结果变量中;
[0026]若未查询到信息或者查询信息有误,则该字段结果内容为空;
[0027]44)交易结构图处理:使用page.get_pixmap(matrix,alpha=False)将整页转化为图片后再采用cv2.imdecode()对图片切割;
[0028]45)现金流归集表、基础资产总体信息均采用表格形式进行提取。
[0029]所述特殊格式的信息处理包括以下步骤:
[0030]51)日期信息处理:
[0031]按照正则规则表达式,日期信息规则描述如下:
[0032]rule_0=re.compile(r'每年.{,1}\d{1,2}月\d{1,2}日')
[0033]rule_1=re.compile(r'每.{,5}年.{,5}每.{,5}月.{,3}最后一')
[0034]rule_2=re.compile(r'每.{,5}年.{,5}每.{,5}月(.*)\d{1,2}日')
[0035]rule_3=re.compile(r'每.{,5}年本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于证券化产品报告的关键信息智能提取方法,其特征在于,包括以下步骤:11)收集总结要提取的关键字段:根据系统录入的产品基本信息,将信息按业务内容进行划分模块,分为:立项基本信息、参与机构、资产池基本信息、日期信息、现金流归集表、支付顺序、交易结构图、基础资产总体信息、基础资产分布信息9个模块,共计68个字段;12)根据说明书的目录初步定位关键信息所在位置区间:根据目录内容循环匹配模块关键词,首先确定提取的模块信息页码位置,再根据特殊情况进一步针对性处理;13)Python搜集发行说明书中关键字段的取值:根据每一个模块的关键信息,逐个模块遍历查找所在位置区间的表格或者文本,批量循环匹配所有关键字段的原文信息,并对提取信息进行加工,输出系统所需格式内容;14)特殊格式的信息处理:对于计算日、兑付日、计息日、持续购买日期描述格式的情况进行特别处理,输出系统所需格式的内容;15)高亮关键词取值位置:定位到所提取的关键词在原文的位置,将原文描述进行高亮标识,并输出高亮后的文档;16)输出智能识别结果:将识别的结果放在一个csv文件中进行集中输出,供JAVA开发人员直接调用存入系统库表中,形成jpg格式的交易结构图及基础资产总体信息和基础资产分布信息的csv表格。2.根据权利要求1所述的一种用于证券化产品报告的关键信息智能提取方法,其特征在于,所述收集总结要提取的关键字段包括以下步骤:21)进行信息分类:根据系统中产品信息页面的模块及其展示字段,人工将提取信息归纳分为9大模块68个字段,分别为:立项基本信息、参与机构、资产池基本信息、日期信息、现金流归集表、支付顺序、交易结构图、基础资产总体信息、基础资产分布信息;22)目录提取:采用机器学习中Tf

idf文本特征提取的方法,即使用sklearn库中的API,feature_extraction.text.TfidfVectorizer来对所有的产品发行说明书中的目录内容进行关键信息提取,综合21)步得到的信息内容,最终整合得到7个主要目录,分别为“参与机构简介”、“交易结构信息”、“现金流分配机制”、“现金流归集表”、“基础资产总体信息”、“日期信息”、“主定义表”;23)编写入参文件:在所有发行说明书中的对应模块循环提取关键字段的文字描述,并将每个字段的多个描述语按照Python正则规则编写,用顿号分隔,写入入参文件。3.根据权利要求1所述的一种用于证券化产品报告的关键信息智能提取方法,其特征在于,所述根据说明书的目录初步定位关键信息所在位置区间包括以下步骤:31)目录内容正则化:根据22)步中获取的目录内容,对目录下的关键标题按照正则规则编写,将7个目录均用正则规则进行处理;32)目录识别:根据pdfplumber识别文档的文本信息,根据正则后的关键信息,按照re.compile('目录|第一章|第二章|第三章|\.{10}')、re.compile('F\

')、re.compile('目录|一、|二、|三、|2.1|3.1|\.{10}')规则搜寻匹配目录在文本中的位置,并根据31)中的关键信息来匹配模块对应的页码范围。4.根据权利要求1所述的一种用于证券化产品报告的关键信息智能提取方法,其特征在于,所述Python搜集发行说明书中关键字段的取值包括以下步骤:41)文本/表格信息提取:根据pages[p].extract_tables()循环提取所有表格或者根
据pages[p].extract_text()提取文本信息;42)表格/文本格式清洗对特殊符号、空白、换行符进行清洗,按照行列循环清洗,清洗原理如:re.s...

【专利技术属性】
技术研发人员:镇磊孙英家陈清平李曼丽卢鹏何成弥
申请(专利权)人:安徽兆尹安联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1