文字关键信息的提取方法及装置制造方法及图纸

技术编号:33119766 阅读:22 留言:0更新日期:2022-04-17 00:16
本发明专利技术提供一种文字关键信息的提取方法及装置,方法包括:获取图像采集设备输入的当前场景图像,当前场景图像包括至少一个文字关联图像;识别文字关联图像所对应的文字信息;基于结构化区域模板,提取文字信息中的关键信息并输出;其中,结构化区域模板依据当前场景图像、基于语音指令确定的封闭图形轮廓位置、以及封闭图形轮廓内对应的关键字确定。通过识别得到一个开放场景下的场景图像中文字关联图像部分对应的文字信息,并结合在该场景下生成的结构化区域模板,提取得到文字新消息中的关键信息,从而不需要根据场景定制化开发,也可以得到特定场景下的图像中文字信息的关键信息对应的结构化信息,减少了人力开发的成本。本。本。

【技术实现步骤摘要】
文字关键信息的提取方法及装置


[0001]本专利技术涉及人工智能
,尤其涉及一种文字关键信息的提取方法及装置。

技术介绍

[0002]开放场景的文字识别中,由于文字在图像中出现的位置、尺度不固定,文字经过检测和识别流程后,提取结构化的文本信息往往很困难,只有固定格式的证件等能够使用固定逻辑准确的提取出结构化的信息。其中,结构化的信息例如图像中某个产品上的某个位置对应的文字信息。在文字格式灵活的开放场景下,例如文字是以无规则的格式显示,并且显示的文字中可能不仅包括常用的文字,还可能包括字符、数字等不常用的符号,如果想要提取其中的一部分字体信息保存,需要根据场景耗费大量人力定制化开发以得到结构化信息。

技术实现思路

[0003]本专利技术提供一种文字关键信息的提取方法及装置,用以解决现有技术中在文字格式灵活的开放场景下,需要根据场景耗费大量人力定制化开发以得到结构化信息的缺陷,实现不需要根据场景定制化开发,也可以得到特定场景下的图像中文字信息的关键信息对应的结构化信息,减少了人力开发的成本。
[0004]本专利技术提供一种文字关键信息的提取方法,包括:获取图像采集设备输入的当前场景图像,所述当前场景图像包括至少一个文字关联图像;识别所述文字关联图像所对应的文字信息;基于结构化区域模板,提取所述文字信息中的关键信息并输出;其中,所述结构化区域模板依据当前场景图像、基于语音指令确定的封闭图形轮廓位置、以及所述封闭图形轮廓内对应的关键字确定。
[0005]根据本专利技术提供的一种文字关键信息的提取方法,所述结构化区域模板通过如下步骤生成:接收并识别所述语音指令;基于所述语音指令,获取当前场景图像中的封闭图形轮廓位置;根据所述封闭图形轮廓位置,确定所述封闭图形轮廓;接收语音提示并识别所述语音提示得到关键字,并显示和保存所述关键字;其中,所述关键字用于表示所述封闭图形轮廓内的文字信息的属性;根据所述封闭图形轮廓位置以及所述关键字,基于多模态融合确定所述结构化区域模板。
[0006]根据本专利技术提供的一种文字关键信息的提取方法,所述获取所述当前场景图像中的封闭图形轮廓位置包括:基于手部检测获取预定时间区间内的多个实时场景图像中每个实时场景图像所
包括的手部图像;其中,所述多个实时场景图像和所述当前场景图像均处于同一个视频流中;基于多个所述手部图像进行关键点检测,获取手部关键点的位置信息;追踪得到多个所述手部关键点的位置信息在当前场景图像中对应的位置,并将多个所述手部关键点的位置信息在当前场景图像中对应的位置作为所述封闭图形轮廓位置。
[0007]根据本专利技术提供的一种文字关键信息的提取方法,所述根据当前场景图像、所述封闭图形轮廓位置、以及所述关键字,基于多模态融合确定所述结构化区域模板,包括:对当前场景图像、所述封闭图形轮廓位置和所述关键字分别进行预处理;将预处理后的所述当前场景图像、所述封闭图形轮廓位置和所述关键字映射到同一个维度,分别得到所述当前场景图像、所述封闭图形轮廓位置和所述关键字在同一维度下的第一特征;将所述第一特征进行维度合并得到第二特征;根据所述第二特征基于卷积运算和坐标变换,得到所述文字信息中的关键信息在当前场景图像中的位置坐标;基于所述位置坐标和预先保存的所述关键字获取所述结构化区域模板。
[0008]根据本专利技术提供的一种文字关键信息的提取方法,所述根据所述封闭图形轮廓位置,确定所述封闭图形轮廓还包括依据预定规则判断所述封闭图形是否完整,所述预定规则为:若所述封闭图形轮廓位置中的位置点存在重复,则所述封闭图形完整。
[0009]根据本专利技术提供的一种文字关键信息的提取方法,所述对当前场景图像、所述封闭图形轮廓位置和所述关键字分别进行预处理,包括:基于卷积神经网络算法对当前场景图像进行特征提取;对所述封闭图形轮廓位置的坐标点进行归一化;以及,对所述关键字提取对应的词向量。
[0010]根据本专利技术提供的一种文字关键信息的提取方法,所述方法应用于可穿戴设备,所述可穿戴设备至少包括图像采集设备、语音录入装置、显示装置、保存装置和处理器;所述图像采集设备用于采集当前场景图像以及实时场景图像,并将当前场景图像以及实时场景图像发送至所述处理器;所述语音录入装置用于录入所述语音指令和所述语音提示,并将所述语音指令和所述语音提示发送至所述处理器;所述处理器用于基于所述语音指令和所述实时场景图像获取所述封闭图形轮廓位置,并基于所述语音提示获取关键字,并将所述封闭图形轮廓以及所述关键字送往所述显示装置显示以及保存装置保存,还基于所述封闭图形轮廓位置和所述关键字生成所述结构化区域模板;还用于识别当前场景图像中文字信息,并结合所述文字信息和所述结构化区域模板提取所述文字信息中的关键信息。
[0011]本专利技术还提供一种文字关键信息的提取装置,包括:获取模块,用于获取图像采集设备输入的当前场景图像,所述当前场景图像包括至少一个文字关联图像;文字识别模块,用于识别所述文字关联图像所对应的文字信息;
处理模块,用于基于结构化区域模板,提取所述文字信息中的关键信息并输出;其中,所述结构化区域模板依据当前场景图像、基于语音指令确定的封闭图形轮廓位置、以及所述封闭图形对应的关键字确定。
[0012]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文字关键信息的提取方法的步骤。
[0013]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文字关键信息的提取方法的步骤。
[0014]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文字关键信息的提取方法的步骤。
[0015]本专利技术提供的文字关键信息的提取方法及装置,通过识别得到一个开放场景下的场景图像中文字关联图像部分对应的文字信息,并结合在该场景下生成的结构化区域模板,提取得到所述文字新消息中关键信息,从而不需要根据场景定制化开发,也可以得到特定场景下的图像中文字信息的关键信息对应的结构化信息,减少了人力开发的成本。
附图说明
[0016]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1是本专利技术提供的文字关键信息的提取方法的流程示意图之一;图2是本专利技术提供的文字关键信息的提取方法的流程示意图之二;图3是本专利技术提供的结构化区域模板的形成过程示意图;图4是本专利技术提供的文字关键信息的提取方法的流程示意图之三;图5是本专利技术提供的文字关键信息的提取方法的流程示意图之四;图6是本专利技术提供的文字关键信息的提取方法的流程示意图之五;图7是本专利技术提供的文字关键信息的提取方法的流程示意图之六;图8是本专利技术提供的文字本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文字关键信息的提取方法,其特征在于,包括如下步骤:获取图像采集设备输入的当前场景图像,所述当前场景图像包括至少一个文字关联图像;识别所述文字关联图像所对应的文字信息;基于结构化区域模板,提取所述文字信息中的关键信息并输出;其中,所述结构化区域模板依据当前场景图像、基于语音指令确定的封闭图形轮廓位置、以及所述封闭图形轮廓内对应的关键字确定。2.根据权利要求1所述的文字关键信息的提取方法,其特征在于,所述结构化区域模板通过如下步骤生成:接收并识别所述语音指令;基于所述语音指令,获取当前场景图像中的封闭图形轮廓位置;根据所述封闭图形轮廓位置,确定所述封闭图形轮廓;接收语音提示并识别所述语音提示得到关键字,并显示和保存所述关键字;其中,所述关键字用于表示所述封闭图形轮廓内的文字信息的属性;根据所述封闭图形轮廓位置以及所述关键字,基于多模态融合确定所述结构化区域模板。3.根据权利要求2所述的文字关键信息的提取方法,其特征在于,所述获取所述当前场景图像中的封闭图形轮廓位置包括:基于手部检测获取预定时间区间内的多个实时场景图像中每个实时场景图像所包括的手部图像;其中,所述多个实时场景图像和所述当前场景图像均处于同一个视频流中;基于多个所述手部图像进行关键点检测,获取手部关键点的位置信息;追踪得到多个所述手部关键点的位置信息在当前场景图像中对应的位置,并将多个所述手部关键点的位置信息在当前场景图像中对应的位置作为所述封闭图形轮廓位置。4.根据权利要求2所述的文字关键信息的提取方法,其特征在于,所述根据所述封闭图形轮廓位置、以及所述关键字,基于多模态融合确定所述结构化区域模板,包括:对当前场景图像、所述封闭图形轮廓位置和所述关键字分别进行预处理;将预处理后的所述当前场景图像、所述封闭图形轮廓位置和所述关键字映射到同一个维度,分别得到所述当前场景图像、所述封闭图形轮廓位置和所述关键字在同一维度下的第一特征;将所述第一特征进行维度合并得到第二特征;根据所述第二特征基于卷积运算和坐标变换,得到所述文字信息中的关键信息在当前场景图像中的位置坐标;基于所述位置坐标和预先保存的所述关键字获取所述结构化区域模板。5.根据权利要求2所述的文字关键信息的提取方法,其特征在于,所述根据所述...

【专利技术属性】
技术研发人员:张旭龙吴斐张立张冰洋杨华龙谢晓蓓李竺虔罗龙
申请(专利权)人:北京亮亮视野科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1