文本信息的处理方法及装置、存储介质、电子设备制造方法及图纸

技术编号:36350939 阅读:61 留言:0更新日期:2023-01-14 18:06
本发明专利技术公开了一种文本信息的处理方法及装置、存储介质、电子设备。涉及人工智能技术领域,其中,该方法包括:响应对目标文本的信息抽取请求,通过第一正则表达式,分割目标文本,得到多个目标段落;通过多个实体抽取规则中的每个实体抽取规则,对每个目标段落进行实体抽取,得到每个目标段落的抽取结果集合,其中,抽取结果集合包括多个实体抽取结果;对每个目标段落的抽取结果集合中多个实体抽取结果进行融合,得到每个目标段落的目标抽取结果;基于信息抽取的抽取指标以及目标抽取结果,确定目标文本的信息抽取结果。本发明专利技术解决了相关技术中采用人工划定文本识别范围,对文本中的实体信息提取效率效果不佳的技术问题。信息提取效率效果不佳的技术问题。信息提取效率效果不佳的技术问题。

【技术实现步骤摘要】
文本信息的处理方法及装置、存储介质、电子设备


[0001]本专利技术涉及人工智能
,具体而言,涉及一种文本信息的处理方法及装置、存储介质、电子设备。

技术介绍

[0002]目前,银行对于贷款客户有着严格的风险防范要求,内部审计部门会不定期对各分支行整理的对于大客户的专业审计风险分析报告进行审查评估。随着金融机构大客户规模的日益增长,面临海量审计报告,审计人员逐字逐句进行审阅,审阅效率低、任务重、压力大,进而导致内审业务人员无法及时审阅相关报告,做出相应风险评估和管控。
[0003]相关技术中,为解决审计人员审阅大量分析报告的问题,常见的解决方法是基于规则,根据信息要素或数据要素在全文进行匹配,或通过自然语言处理对命名实体(例如人名、地名、机构名、数字等)进行抽取,再通过人工将实体和数据要素进行匹配,完成文档信息抽取工作。但是,基于规则匹配的方式在全文进行检索,匹配效果差、匹配错误率高等问题。而在段落进行检索,依赖业务人员手工划分段落区域,严重加大业务人员的工作量,效率低下。基于自然语言处理模型进行实体抽取的方法,虽然能识别出实体信息,但由于实体本身并不具备实际业务含义,如何与业务人员关注的信息要素或数据要素进行匹配,依赖业务人员手工建立联系,产生关联,加大业务人员的手工处理工作量,无法实际解决信息抽取的自动化问题。
[0004]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术实施例提供了一种文本信息的处理方法及装置、存储介质、电子设备,以至少解决相关技术中采用人工划定文本识别范围,对文本中的实体信息提取效率效果不佳的技术问题。
[0006]根据本专利技术实施例的一个方面,提供了一种文本信息的处理方法,包括:响应对目标文本的信息抽取请求,通过第一正则表达式,分割所述目标文本,得到多个目标段落,其中,所述目标文本为企业的风险分析报告文本;通过多个实体抽取规则中的每个实体抽取规则,对每个目标段落进行实体抽取,得到每个目标段落的抽取结果集合,其中,所述抽取结果集合包括多个实体抽取结果,每个实体抽取结果中至少包括多个实体,所述实体为每个目标段落中抽取的词语;对每个目标段落的抽取结果集合中多个实体抽取结果进行融合,得到每个目标段落的目标抽取结果;基于信息抽取的抽取指标以及所述目标抽取结果,确定所述目标文本的信息抽取结果,其中,所述抽取指标用于对所述目标文本的信息进行抽取,所述信息抽取结果至少包括所述抽取指标与所述目标文本中实体的对应关系。
[0007]进一步地,对每个目标段落的抽取结果集合中多个实体抽取结果进行融合,得到每个目标段落的目标抽取结果,包括:计算所述抽取结果集合中的每个实体在所述抽取结果集合中的实体数量,并对所述抽取结果集合中的每个实体的所述实体数量与预设阈值进
行比较,得到比较结果;依据所述比较结果,确定每个目标段落的目标抽取结果。
[0008]进一步地,依据所述比较结果,确定每个目标段落的目标抽取结果,包括:若所述比较结果表示存在实体数量大于预设阈值的第一实体,则将所述第一实体作为所述目标抽取结果中的实体之一;若所述比较结果表示存在实体数量等于预设阈值的第二实体,依据所述第二实体所属的实体抽取结果,确定是否将所述第二实体作为所述目标抽取结果中的实体之一;若所述比较结果表示存在实体数量小于所述预设阈值的第三实体,则将所述第三实体在所述抽取结果集合中删除。
[0009]进一步地,依据所述第二实体所属的实体抽取结果,确定是否将所述第二实体作为所述目标抽取结果中的实体之一,包括:依据所述第二实体所属的实体抽取结果,判断所述第二实体所属的实体抽取结果,是否为目标实体抽取结果,其中,所述目标实体抽取结果为通过词汇字典规则对目标段落进行实体抽取的实体抽取结果;在所述第二实体所属的实体抽取结果为目标实体抽取结果的情况下,将所述第二实体作为所述目标抽取结果中的实体之一。
[0010]进一步地,基于信息抽取的抽取指标以及所述目标抽取结果,确定所述目标文本的信息抽取结果,包括:基于信息抽取的抽取指标与所述目标抽取结果中的实体进行组合,得到目标组合信息,其中,所述目标组合信息为所述抽取指标与所述目标抽取结果中的一个或多个实体的组合;通过第二正则表达式,基于所述目标组合信息,对所述抽取指标与所述目标抽取结果中的一个或多个实体进行匹配,确定所述抽取指标匹配的实体,得到所述目标文本的信息抽取结果。
[0011]进一步地,通过第二正则表达式,基于所述目标组合信息,对所述抽取指标与所述目标抽取结果中的一个或多个实体进行匹配,确定所述抽取指标匹配的实体,得到所述目标文本的信息抽取结果,包括:依据所述目标组合信息中的每个实体所属的段落,通过第二正则表达式,对所述抽取指标与所述目标抽取结果中的一个或多个实体进行匹配,确定所述抽取指标匹配的实体,得到所述目标文本的信息抽取结果。
[0012]进一步地,所述多个实体抽取规则至少包括:词汇字典规则、正则表达式规则、深度学习模型规则。
[0013]根据本专利技术实施例的另一方面,还提供了一种文本信息的处理装置,进一步地,包括:分割单元,用于响应对目标文本的信息抽取请求,通过第一正则表达式,分割所述目标文本,得到多个目标段落,其中,所述目标文本为企业的风险分析报告文本;实体抽取单元,用于通过多个实体抽取规则中的每个实体抽取规则,对每个目标段落进行实体抽取,得到每个目标段落的抽取结果集合,其中,所述抽取结果集合包括多个实体抽取结果,每个实体抽取结果中至少包括多个实体,所述实体为每个目标段落中抽取的词语;融合单元,用于对每个目标段落的抽取结果集合中多个实体抽取结果进行融合,得到每个目标段落的目标抽取结果;确定单元,用于基于信息抽取的抽取指标以及所述目标抽取结果,确定所述目标文本的信息抽取结果,其中,所述抽取指标用于对所述目标文本的信息进行抽取,所述信息抽取结果至少包括所述抽取指标与所述目标文本中实体的对应关系。
[0014]进一步地,融合单元包括:处理子单元,用于计算所述抽取结果集合中的每个实体在所述抽取结果集合中的实体数量,并对所述抽取结果集合中的每个实体的所述实体数量与预设阈值进行比较,得到比较结果;确定子单元,用于依据所述比较结果,确定每个目标
段落的目标抽取结果。
[0015]进一步地,确定子单元包括:第一处理模块,用于若所述比较结果表示存在实体数量大于预设阈值的第一实体,则将所述第一实体作为所述目标抽取结果中的实体之一;第二处理模块,用于若所述比较结果表示存在实体数量等于预设阈值的第二实体,依据所述第二实体所属的实体抽取结果,确定是否将所述第二实体作为所述目标抽取结果中的实体之一;第三处理模块,用于若所述比较结果表示存在实体数量小于所述预设阈值的第三实体,则将所述第三实体在所述抽取结果集合中删除。
[0016]进一步地,第二处理模块包括:判断子模块,用于依据所述第二实体所属的实体抽取结果,判断所述第二实体所属的实体抽取结果,是否为目标实体抽取结果,其中,所述目标实体抽取结果为通过词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本信息的处理方法,其特征在于,包括:响应对目标文本的信息抽取请求,通过第一正则表达式,分割所述目标文本,得到多个目标段落,其中,所述目标文本为企业的风险分析报告文本;通过多个实体抽取规则中的每个实体抽取规则,对每个目标段落进行实体抽取,得到每个目标段落的抽取结果集合,其中,所述抽取结果集合包括多个实体抽取结果,每个实体抽取结果中至少包括多个实体,所述实体为每个目标段落中抽取的词语;对每个目标段落的抽取结果集合中多个实体抽取结果进行融合,得到每个目标段落的目标抽取结果;基于信息抽取的抽取指标以及所述目标抽取结果,确定所述目标文本的信息抽取结果,其中,所述抽取指标用于对所述目标文本的信息进行抽取,所述信息抽取结果至少包括所述抽取指标与所述目标文本中实体的对应关系。2.根据权利要求1所述的处理方法,其特征在于,对每个目标段落的抽取结果集合中多个实体抽取结果进行融合,得到每个目标段落的目标抽取结果,包括:计算所述抽取结果集合中的每个实体在所述抽取结果集合中的实体数量,并对所述抽取结果集合中的每个实体的所述实体数量与预设阈值进行比较,得到比较结果;依据所述比较结果,确定每个目标段落的目标抽取结果。3.根据权利要求2所述的处理方法,其特征在于,依据所述比较结果,确定每个目标段落的目标抽取结果,包括:若所述比较结果表示存在实体数量大于预设阈值的第一实体,则将所述第一实体作为所述目标抽取结果中的实体之一;若所述比较结果表示存在实体数量等于预设阈值的第二实体,依据所述第二实体所属的实体抽取结果,确定是否将所述第二实体作为所述目标抽取结果中的实体之一;若所述比较结果表示存在实体数量小于所述预设阈值的第三实体,则将所述第三实体在所述抽取结果集合中删除。4.根据权利要求3所述的处理方法,其特征在于,依据所述第二实体所属的实体抽取结果,确定是否将所述第二实体作为所述目标抽取结果中的实体之一,包括:依据所述第二实体所属的实体抽取结果,判断所述第二实体所属的实体抽取结果是否为目标实体抽取结果,其中,所述目标实体抽取结果为通过词汇字典规则对目标段落进行实体抽取的实体抽取结果;在所述第二实体所属的实体抽取结果为目标实体抽取结果的情况下,将所述第二实体作为所述目标抽取结果中的实体之一。5.根据权利要求1所述的处理方法,其特征在于,基于信息抽取的抽取指标以及所述目标抽取结果,确定所述目标文本的信息抽取结果,包括:基于信...

【专利技术属性】
技术研发人员:朱芳鹏赵文怡朱泽丛
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1