信息提取方法、装置、电子设备和存储介质制造方法及图纸

技术编号:36101479 阅读:54 留言:0更新日期:2022-12-28 14:00
本申请涉及信息提取技术领域,具体公开了一种信息提取方法、装置、电子设备和存储介质,其中,信息提取方法包括:确定待提取图像中的合同文本的合同类型;根据所述合同类型,获取所述合同类型对应的标准合同文本;根据所述标准合同文本,对所述待提取图像进行区域筛选,获得至少一个第一区域;获取用户的身份信息;在所述至少一个第一区域中选取至少一个第二区域,其中,所述至少一个第二区域中的每个第二区域与所述身份信息的关联度大于阈值;在所述待提取图像中,分别对所述至少一个第二区域中的每个第二区域对应的图像进行信息提取,得到至少一个文本信息。到至少一个文本信息。到至少一个文本信息。

【技术实现步骤摘要】
信息提取方法、装置、电子设备和存储介质


[0001]本专利技术涉及信息提取
,具体涉及一种信息提取方法、装置、电子设备和存储介质。

技术介绍

[0002]目前,对于合同的审核往往采用对合同全文进行内容识别的方式获取合同文本,进行审核。但是,全文识别耗时较久,且识别结果包含大量无用的标准文本,造成审核效率低下。

技术实现思路

[0003]为了解决现有技术中存在的上述问题,本申请实施方式提供了一种信息提取方法、装置、电子设备和存储介质,可以针对性的提取与用户关联度高的合同信息供用户审核,提升审核效率的同时,降低了识别时间,提升了用户体验。
[0004]第一方面,本申请的实施方式提供了一种信息提取方法,包括:
[0005]确定待提取图像中的合同文本的合同类型;
[0006]根据合同类型,获取合同类型对应的标准合同文本;
[0007]根据标准合同文本,对待提取图像进行区域筛选,获得至少一个第一区域;
[0008]获取用户的身份信息;
[0009]在至少一个第一区域中选取至少一个第二区域,其中,至少一个第二区域中的每个第二区域与身份信息的关联度大于阈值;
[0010]在待提取图像中,分别对至少一个第二区域中的每个第二区域对应的图像进行信息提取,得到至少一个文本信息。
[0011]第二方面,本申请的实施方式提供了一种信息提取装置,包括:
[0012]信息获取模块,用于确定待提取图像中的合同文本的合同类型;
[0013]匹配模块,用于根据合同类型,获取合同类型对应的标准合同文本;
[0014]筛选模块,用于根据标准合同文本,对待提取图像进行区域筛选,获得至少一个第一区域;
[0015]信息获取模块,还用于获取用户的身份信息;
[0016]筛选模块,还用于在至少一个第一区域中选取至少一个第二区域,其中,至少一个第二区域中的每个第二区域与身份信息的关联度大于阈值;
[0017]提取模块,用于在待提取图像中,分别对至少一个第二区域中的每个第二区域对应的图像进行信息提取,得到至少一个文本信息。
[0018]第三方面,本申请实施方式提供一种电子设备,包括:处理器,处理器与存储器相连,存储器用于存储计算机程序,处理器用于执行存储器中存储的计算机程序,以使得电子设备执行如第一方面的方法。
[0019]第四方面,本申请实施方式提供一种计算机可读存储介质,计算机可读存储介质
存储有计算机程序,计算机程序使得计算机执行如第一方面的方法。
[0020]第五方面,本申请实施方式提供一种计算机程序产品,计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,计算机可操作来使计算机执行如第一方面的方法。
[0021]实施本申请实施方式,具有如下有益效果:
[0022]在本申请实施方式中,通过确定待提取图像中的合同文本的合同类型,继而获取该合同类型对应的标准合同文本。然后,根据标准合同文本,确定该类型的合同文本中,关键信息所在的区域,继而对待提取图像进行区域筛选,获得包含关键信息的至少一个第一区域。最后,根据用户的身份信息,在至少一个第一区域中选取与该用户关联度较高的至少一个第二区域,对该至少一个第二区域对应的图像进行信息提取,得到至少一个文本信息,以供该用户审核。由此,在对合同文本进行信息提取之前,优先确定该合同中关键信息所在的位置,继而再从关键信息所在的位置中确定与用户密切相关的信息所在的位置,对这些位置进行信息提取,从而减少需要提取的信息的分量,提升了信息提取速度。同时,提取出的信息是与用户密切相关的,换句话说,提取的信息即为该用户身份所需要的审核的重点,因此,提升了审核效率和用户体验。
附图说明
[0023]为了更清楚地说明本申请实施方式中的技术方案,下面将对实施方式描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1为本申请实施方式提供的一种信息提取装置的硬件结构示意图;
[0025]图2为本申请实施方式提供的一种信息提取方法的流程示意图;
[0026]图3为本申请实施方式提供的一种确定待提取图像中的合同文本的合同类型的方法的流程示意图;
[0027]图4为本申请实施方式提供的一种确定每个备选词的逆文档频率的方法的流程示意图;
[0028]图5为本申请实施方式提供的一种在待提取图像中,分别对至少一个第二区域中的每个第二区域对应的图像进行信息提取,得到至少一个文本信息的方法的流程示意图;
[0029]图6为本申请实施方式提供的一种信息提取装置的功能模块组成框图;
[0030]图7为本申请实施方式提供的一种电子设备的结构示意图。
具体实施方式
[0031]下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本申请保护的范围。
[0032]本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它
们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0033]在本文中提及“实施方式”意味着,结合实施方式描述的特定特征、结果或特性可以包含在本申请的至少一个实施方式中。在说明书中的各个位置出现该短语并不一定均是指相同的实施方式,也不是与其它实施方式互斥的独立的或备选的实施方式。本领域技术人员显式地和隐式地理解的是,本文所描述的实施方式可以与其它实施方式相结合。
[0034]参阅图1,图1为本申请实施方式提供的一种信息提取装置的硬件结构示意图。该信息提取装置100包括至少一个处理器101,通信线路102,存储器103以及至少一个通信接口104。
[0035]在本实施方式中,处理器101,可以是一个通用中央处理器(central processing unit,CPU),微处理器,特定应用集成电路(application

specific integrated circuit,ASIC),或一个或多个用于控制本申请方案程序执行的集成电路。
[0036]通信线路102,可以包括一通路,在上述组件之间传送信息。
[0037]通信接口104,可以是任何收发器一类的装置(如天线等),用于与其他设备或通信网络通信,例如以太网,RAN,无线局域网(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息提取方法,其特征在于,所述方法包括:确定待提取图像中的合同文本的合同类型;根据所述合同类型,获取所述合同类型对应的标准合同文本;根据所述标准合同文本,对所述待提取图像进行区域筛选,获得至少一个第一区域;获取用户的身份信息;在所述至少一个第一区域中选取至少一个第二区域,其中,所述至少一个第二区域中的每个第二区域与所述身份信息的关联度大于阈值;在所述待提取图像中,分别对所述至少一个第二区域中的每个第二区域对应的图像进行信息提取,得到至少一个文本信息。2.如权利要求1所述的方法,其特征在于,所述根据所述标准合同文本,对所述待提取图像进行区域筛选,获得至少一个第一区域,包括:根据筛选规则确定所述标准合同文本中的至少一个第三区域,其中,所述至少一个第三区域中的每个第三区域为所述标准合同文本中关键信息所在的区域;根据所述至少一个第三区域的区域分布,在所述待提取图像中,确定所述至少一个第一区域,其中,所述至少一个第一区域的区域分布与所述至少一个第三区域的区域分布相同,所述至少一个第一区域与所述至少一个第三区域一一对应。3.如权利要求2所述的方法,其特征在于,所述标准合同文本包括至少一个预设区域,所述根据筛选规则确定所述标准合同文本中的至少一个第三区域,包括:对于所述标准合同文本中的至少一个预设区域中的每个预设区域,分别获取所述每个预设区域的区域标签,得到至少一个区域标签,其中,所述至少一个区域标签与所述至少一个预设区域一一对应;根据所述合同文本的文本类型和所述至少一个区域标签,在所述至少一个预设区域中确定所述至少一个第三区域。4.如权利要求3所述的方法,其特征在于,所述在所述至少一个第一区域中选取至少一个第二区域,包括:根据所述每个预设区域的区域标签,确定所述每个第三区域的区域标签;根据所述每个第三区域的区域标签,确定所述每个第一区域的区域标签;分别计算所述每个第一区域的区域标签与所述用户的身份信息之间的关联度;根据所述关联度,在所述至少一个第一区域中选取至少一个第二区域,其中,所述第二区域中的每个第二区域对应的关联度大于阈值。5.如权利要求1

4中任意一项所述的方法,其特征在于,所述在所述待提取图像中,分别对所述至少一个第二区域中的每个第二区域对应的图像进行信息提取,得到至少一个文本信息,包括:对所述每个第二区域对应的图像进行文字识别,得到第一字符串;对所述第一字符串进行字符分...

【专利技术属性】
技术研发人员:王亚东林茂华高睿苏能武阮琳琳
申请(专利权)人:珠海采筑电子商务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1