【技术实现步骤摘要】
文档信息整合方法、装置、设备、介质和程序产品
[0001]本专利技术实施例涉及计算机
,尤其涉及一种文档信息整合方法、装置、设备、介质和程序产品。
技术介绍
[0002]在一些项目评估或者金融领域内的授信评估场景下,需要对大量的相关信息内容进行分析与评估。但是,待评估信息内容的文档来源较多,且文档数量也较大,需要预先将各文档中的有效信息进行提取与整合。
[0003]目前,多基于模板引擎(Freemarker)为每个类型文档编写模板,进而根据文档模板结构进行文档内容的提取。但是,各文档来源多样格式多样,模板配置难度较大,导出内容占用空间较大,导出内容为非标准文档,难以动态再加工的问题,导致信息整合的效率较低。
技术实现思路
[0004]本专利技术实施例提供了一种文档信息整合方法、装置、设备、介质和程序产品,以实现提高多源非结构文档信息提取与整合的效率。
[0005]第一方面,本专利技术实施例提供了一种文档信息整合方法,该方法包括:
[0006]获取待评估对象名单,并根据所述待评估对 ...
【技术保护点】
【技术特征摘要】
1.一种文档信息整合方法,其特征在于,所述方法包括:获取待评估对象名单,并根据所述待评估对象名单获取对应的信息源文档,其中,所述信息源文档为非结构化文档;针对所述待评估对象名单中的每个待评估对象,根据与待评估对象对应的信息源文档中各文档的文档编号匹配与各文档相对应的内容提取规则,并按照所述内容提取规则提取目标关键信息;按照预设信息整合模板,将所述目标关键信息进行整合,生成目标结构化文档。2.根据权利要求1所述的方法,其特征在于,所述根据与待评估对象对应的信息源文档中各文档的文档编号匹配与各文档相对应的内容提取规则,并按照所述内容提取规则提取目标关键信息,包括:根据所述文档编号确定信息源文档对应的文档类型,并根据所述文档类型匹配对应的内容提取规则;基于所述内容提取规则中的预设关键词信息在对应类型的信息源文档中提取出目标关键信息。3.根据权利要求2所述的方法,其特征在于,所述基于所述内容提取规则中的预设关键词信息在对应类型的信息源文档中提取出目标关键信息,包括:获取所述预设关键词信息中的第一预设关键词词组;根据所述第一预设关键词词组中第一开始关键词和第一结束关键词,匹配并提取以所述第一开始关键词为起始位置,且以所述第一结束关键词为结束位置的第一段落。4.根据权利要求2所述的方法,其特征在于,所述基于所述内容提取规则中的预设关键词信息在对应类型的信息源文档中提取出目标关键信息,还包括:获取所述预设关键词信息中的第二预设关键词词组;根据所述第二预设关键词词组中第二开始关键词和第二结束关键词,匹配以所述第二开始关键词为起始位置,且以所述第二结束关键词为结束位置的第二段落;在所述第二段落中,提取包含第一预设关键词的句子。5.根据权利要求2所述的方法,其特征在于,所述基于所述内容提取规则中的预设关键词信息在对应类型的信息源文档中提取出目标关键信息,还包括:提取包含第二预设关键词的表格或表格中的单元格内容。6.根据权利要求1所述的方法,其特征在于,所述获取待评估对象名单,包括:与目标风险预警系统建立连接,请求并获取业务风险报警名单;将所述业务风险报警名单作为所述待评估对象名单。7.根据权利要求6所述的方法,其特征在于,所述根据所述待评估对象名单获取对应的信息源文档,包括:向预设授信业务系统请求并获取待评估对象的授信文档;其中,所述授信文档包括调查报告、预设项目...
【专利技术属性】
技术研发人员:高毓斌,
申请(专利权)人:中国建设银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。