文本知识抽取方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:37273904 阅读:27 留言:0更新日期:2023-04-20 23:42
本发明专利技术提供一种文本知识抽取方法、装置、电子设备和可读存储介质,涉及知识抽取技术领域,该方法包括:将待识别文本图像输入至目标检测模型中,得到至少一个目标文本检测框所在感兴趣文本区域的目标区域位置信息和目标文本类别;基于目标区域位置信息获取目标文本检测框所在感兴趣文本区域对应的子文本图像,并基于目标文本类别将每个目标文本检测框对应的子文本图像划分为至少两类子文本图像;基于每一类子文本图像所在感兴趣文本区域的目标区域位置信息和目标文本类别以及其对应的知识抽取策略获取待识别文本图像对应的目标文本知识,以解决现有技术中如何提高知识抽取方法的准确性、可迁移性以及降低文本知识抽取门槛的技术问题。槛的技术问题。槛的技术问题。

【技术实现步骤摘要】
文本知识抽取方法、装置、电子设备和可读存储介质


[0001]本专利技术涉及知识抽取
,尤其涉及一种文本知识抽取方法、装置、电子设备和可读存储介质。

技术介绍

[0002]农业作为我国的第一产业,对经济发展和社会稳定发挥着至关重要的作用。目前存在大量的农业书籍,知识查找效率低下,农业相关的知识库比较有限而且质量没有保证,因此农业知识库的整理对于农技推广和农业书籍知识的广泛传播都非常重要。
[0003]在现有技术中,对农业书籍中的每一页书本图像进行光学字符识别,以将图片数据转化为文本数据,从而基于预设知识抽取模板从文本数据中抽取实体信息、描述信息等知识。然而,由于知识抽取模板的规则设置会受到不同领域的书籍内容的影响,因此知识抽取模板的迁移性比较差,并且知识抽取模板的复杂性和专业性比较高,因此制定知识抽取模板需要具备相关领域的专业知识,从而导致知识抽取的门槛比较高,从而不利于农技推广和农业书籍知识的广泛传播。另外,将光学字符识别方法应用于特定
时存在误识别的技术缺陷。
[0004]因此,如何提高知识抽取方法的准确性、可迁移本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本知识抽取方法,其特征在于,包括:将待识别文本图像输入至预先训练好的目标检测模型中,得到至少一个目标文本检测框以及每个所述目标文本检测框所在感兴趣文本区域的目标区域位置信息和目标文本类别,所述待识别文本图像为半结构化文本图像;基于所述目标区域位置信息从所述待识别文本图像中截取每个所述目标文本检测框所在感兴趣文本区域对应的子文本图像,并基于所述目标文本类别对每个所述目标文本检测框所在感兴趣文本区域对应的子文本图像进行分类,得到至少两类子文本图像;基于所述至少两类子文本图像中每一类所述子文本图像所在感兴趣文本区域的目标区域位置信息和目标文本类别以及其对应的知识抽取策略,获取所述待识别文本图像对应的目标文本知识。2.根据权利要求1所述的文本知识抽取方法,其特征在于,所述至少两类子文本图像包括第一子文本图像和第二子文本图像;所述基于所述目标文本类别对每个所述目标文本检测框所在感兴趣文本区域对应的子文本图像进行分类,得到至少两类子文本图像,包括:在所述目标文本检测框所在感兴趣文本区域的目标文本类别为第一文本类别的情况下,确定所述目标文本检测框所在感兴趣文本区域对应的子文本图像为所述第一子文本图像,所述第一文本类别包括特殊符号;在所述目标文本检测框所在感兴趣文本区域的目标文本类别为第二文本类别的情况下,确定所述目标文本检测框所在感兴趣文本区域对应的子文本图像为所述第二子文本图像,所述第二文本类别包括实体、属性以及属性值。3.根据权利要求1所述的文本知识抽取方法,其特征在于,所述基于所述至少两类子文本图像中每一类所述子文本图像所在感兴趣文本区域的目标区域位置信息和目标文本类别以及其对应的知识抽取策略,获取所述待识别文本图像对应的目标文本知识,包括:基于每一类所述子文本图像对应的知识抽取策略,获取每一类所述子文本图像对应的第一文本知识,所述知识抽取策略基于所述子文本图像所在感兴趣文本区域的目标文本类别确定;基于每个所述子文本图像所在感兴趣文本区域的目标区域位置信息,确定所述待识别文本图像中处于同一个图像子区域内的至少两个子文本图像;针对每个所述图像子区域,基于所述图像子区域中的每个所述子文本图像所在感兴趣文本区域的目标区域位置信息和目标文本类别以及其对应的第一文本知识,确定所述图像子区域对应的第二文本知识;基于所述待识别文本图像中各个所述图像子区域各自对应的第二文本知识以及各个所述图像子区域中的子文本图像,确定所述待识别文本图像对应的目标文本知识。4.根据权利要求3所述的文本知识抽取方法,其特征在于,所述基于所述图像子区域中的每个所述子文本图像所在感兴趣文本区域的目标区域位置信息和目标文本类别以及其对应的第一文本知识,确定所述图像子区域对应的第二文本知识,包括:基于所述图像子区域中的每个所述子文本图像所在感兴趣文本区域的目标文本类别,确定所述图像子区域中的各个子文本图像之间的第一类别从属关系,所述第一类别从属关系包括实体、属性以及属性值之间的类别从属关系;
基于所述第一类别从属关系对所述图像子区域中的各个子文本图像对应的第一文本知识进行数据关联处理,得到所述图像子区域对应的第二文本知识。5.根据权利要求3所述的文本知识抽取方法,其特征在于,所述基于所述待识别文本图像中各个所述图像子区域各自对应的第二文本知识以及各个所述图像子区域中的子文本图像,确定所述待识别文本图像对应的目标文本知识,包括:针对所述待识别文本图像中的每个图像子区域,获取所述图像子区域中位于区域边界的目标子文本图像;基于各个所述目标子文本图像所在感兴趣文本区域的目标区域位置信息和目标文本类别,获取各个图像子区域对应目标子文本图像之间的第二类别从属关系,所述第二类别从属关系包括实体、属性以及属性值之间的类别从属关系;基于所述第二类别从属关系,对所述第二文本知识中各个目标子文本图像对应的第一文本知识进行数据关联处理,得到所述待识别文本图像对应的目标文本知识。6.根据权利要求1

5任一项所述的文本知识...

【专利技术属性】
技术研发人员:闫润强段素霞
申请(专利权)人:河南讯飞人工智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1