文本结构化方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:23343510 阅读:43 留言:0更新日期:2020-02-15 03:56
本申请实施例涉及文本处理技术领域,公开了一种文本结构化方法、装置、电子设备及计算机可读存储介质,其中,文本结构化方法包括:基于预定义模板,确定待结构化文本的目标实体关键词及目标实体关键词的候选实体值,预定义模板是根据待结构化文本的版面信息和实体信息确定的,实体信息包括实体关键词及实体关键词的实体值的格式信息;根据实体依存关系模型与预定义模板,从候选实体值中确定目标实体关键词的目标实体值;基于预定义模板,对目标实体关键词与目标实体值进行结构化,生成目标结构。本申请实施例的方法,可以灵活选择相应的预定义模板,从而高效地完成文本结构化,而且可以实现对具有不同格式的不同类型的待结构化文本的全面覆盖。

Text structure method, device, electronic equipment and computer readable storage medium

【技术实现步骤摘要】
文本结构化方法、装置、电子设备及计算机可读存储介质
本申请实施例涉及文本处理
,具体而言,本申请涉及一种文本结构化方法、装置、电子设备及计算机可读存储介质。
技术介绍
随着信息技术的不断发展和普及,无纸化办公得到了广泛应用,将纸质资料转换为相应的电子文本,例如将纸质票据文本转换为电子票据文本,不仅能有效减少信息整理的复杂度,延长信息保存的时长,而且能够节省人工整理成本。在这些电子文本中,往往含有大量有用的信息,有效利用这些电子文本挖掘出有用信息已经成为一个很迫切的需求。通过人工进行有用信息提取的工作量极其巨大,如果能利用计算机自动提取出有用的信息,那将具有非常重要的意义。然而,目前的电子文本(例如电子票据文本)几乎都是以自然语言形式存在的非结构化文本或半结构化文本,计算机无法直接进行处理,因此,需要将非结构化文本或半结构化文本,处理为计算机可以直接进行处理的结构化文本(比如表格、结构图、流程图等)。
技术实现思路
本申请实施例的目的旨在至少能解决上述的技术缺陷之一,特提出以下技术方案:>一方面,提供了一种本文档来自技高网...

【技术保护点】
1.一种文本结构化方法,其特征在于,包括:/n基于预定义模板,确定待结构化文本的目标实体关键词及所述目标实体关键词的候选实体值,所述预定义模板是根据所述待结构化文本的版面信息和实体信息确定的,所述实体信息包括实体关键词及所述实体关键词的实体值的格式信息;/n根据实体依存关系模型与所述预定义模板,从所述候选实体值中确定所述目标实体关键词的目标实体值;/n基于所述预定义模板,对所述目标实体关键词与所述目标实体值进行结构化,生成目标结构。/n

【技术特征摘要】
1.一种文本结构化方法,其特征在于,包括:
基于预定义模板,确定待结构化文本的目标实体关键词及所述目标实体关键词的候选实体值,所述预定义模板是根据所述待结构化文本的版面信息和实体信息确定的,所述实体信息包括实体关键词及所述实体关键词的实体值的格式信息;
根据实体依存关系模型与所述预定义模板,从所述候选实体值中确定所述目标实体关键词的目标实体值;
基于所述预定义模板,对所述目标实体关键词与所述目标实体值进行结构化,生成目标结构。


2.根据权利要求1所述的方法,其特征在于,所述预定义模板包括以下至少一项信息:
预设实体关键词;预设实体关键词与该预设实体关键词的实体值间的位置关系;预设实体关键词的实体值满足的预定模式。


3.根据权利要求2所述的方法,其特征在于,所述基于预定义模板,确定待结构化文本的目标实体关键词及所述目标实体关键词的候选实体值,包括:
根据所述预定义模板中的预设实体关键词,确定所述待结构化文本的目标实体关键词;
根据所述预定义模板中的预设实体关键词与该预设实体关键词的实体值间的位置关系,确定所述待结构化文本的目标实体关键词的候选实体值。


4.根据权利要求3所述的方法,其特征在于,所述根据所述预定义模板中的预设实体关键词,确定所述待结构化文本的目标实体关键词,包括:
通过字符完全匹配的方式,根据所述预设实体关键词,确定所述待结构化文本的目标实体关键词。


5.根据权利要求3所述的方法,其特征在于,所述根据所述预定义模板中的预设实体关键词与该预设实体关键词的实体值间的位置关系,确定所述待结构化文本的目标实体关键词的候选实体值,包括:
确定所述待结构化文本的至少两个文本块;
根据所述位置关系,确定所述目标实体关键词所在文本块所对应的候选文本块,并确定一个候选文本块中的文本词为所述目标实体关键词的一个候选实体值。


6.根据权利要求5所述的方法,其特征在于,所述确定所述待结构化文本的至少两个文本块,包括:
根据所述待结构化文本中各个文本词的位置信息,将所述各个文本词聚合为至少两个文本块,所述位置信息包括文本词的横坐标、文本词的纵坐标、文本词的高度值、文本词的宽度值。


7.根据权利要求6所述的方法,其特征在于,所述根据所述待结构化文本中各个文本词的位置信息,将所述各个文本词聚合为至少两个文本块,包括:
根据所述位置信息与第一预定比例,确定横向坐标轴方向上的相邻文本词间的第一距离,根据所述位置信息与第二预定比例,确定纵向坐标轴方向上的相邻文本词间的第二距离,所述第一预定比例表示横向坐标轴方向上的相邻文本词间的空白部分尺寸与文本词尺寸的宽度比,所述第二预定比例表示纵向坐标轴方向上的相邻文本词间的空白部分尺寸与文本词尺寸的高度比;
当所述第一距离满足第一预定条件,将横向坐标轴方向上的相邻文本词划分为一个文本块;
当所述第二距离满足第二预定条件,将纵向坐标轴方向上的相邻文本词划分为一...

【专利技术属性】
技术研发人员:洪科元李斌章秦
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1