【技术实现步骤摘要】
文字关键信息的提取方法及装置
[0001]本专利技术涉及人工智能
,尤其涉及一种文字关键信息的提取方法及装置。
技术介绍
[0002]开放场景的文字识别中,由于文字在图像中出现的位置、尺度不固定,文字经过检测和识别流程后,提取结构化的文本信息往往很困难,只有固定格式的证件等能够使用固定逻辑准确的提取出结构化的信息。其中,结构化的信息例如图像中某个产品上的某个位置对应的文字信息。在文字格式灵活的开放场景下,例如文字是以无规则的格式显示,并且显示的文字中可能不仅包括常用的文字,还可能包括字符、数字等不常用的符号,如果想要提取其中的一部分字体信息保存,需要根据场景耗费大量人力定制化开发以得到结构化信息。
技术实现思路
[0003]本专利技术提供一种文字关键信息的提取方法及装置,用以解决现有技术中在文字格式灵活的开放场景下,需要根据场景耗费大量人力定制化开发以得到结构化信息的缺陷,实现不需要根据场景定制化开发,也可以得到特定场景下的图像中文字信息的关键信息对应的结构化信息,减少了人力开发的成本。
[00 ...
【技术保护点】
【技术特征摘要】
1.一种文字关键信息的提取方法,其特征在于,包括如下步骤:获取图像采集设备输入的当前场景图像,所述当前场景图像包括至少一个文字关联图像;识别所述文字关联图像所对应的文字信息;基于结构化区域模板,提取所述文字信息中的关键信息并输出;其中,所述结构化区域模板依据当前场景图像、基于语音指令确定的封闭图形轮廓位置、以及所述封闭图形轮廓内对应的关键字确定。2.根据权利要求1所述的文字关键信息的提取方法,其特征在于,所述结构化区域模板通过如下步骤生成:接收并识别所述语音指令;基于所述语音指令,获取当前场景图像中的封闭图形轮廓位置;根据所述封闭图形轮廓位置,确定所述封闭图形轮廓;接收语音提示并识别所述语音提示得到关键字,并显示和保存所述关键字;其中,所述关键字用于表示所述封闭图形轮廓内的文字信息的属性;根据所述封闭图形轮廓位置以及所述关键字,基于多模态融合确定所述结构化区域模板。3.根据权利要求2所述的文字关键信息的提取方法,其特征在于,所述获取所述当前场景图像中的封闭图形轮廓位置包括:基于手部检测获取预定时间区间内的多个实时场景图像中每个实时场景图像所包括的手部图像;其中,所述多个实时场景图像和所述当前场景图像均处于同一个视频流中;基于多个所述手部图像进行关键点检测,获取手部关键点的位置信息;追踪得到多个所述手部关键点的位置信息在当前场景图像中对应的位置,并将多个所述手部关键点的位置信息在当前场景图像中对应的位置作为所述封闭图形轮廓位置。4.根据权利要求2所述的文字关键信息的提取方法,其特征在于,所述根据所述封闭图形轮廓位置、以及所述关键字,基于多模态融合确定所述结构化区域模板,包括:对当前场景图像、所述封闭图形轮廓位置和所述关键字分别进行预处理;将预处理后的所述当前场景图像、所述封闭图形轮廓位置和所述关键字映射到同一个维度,分别得到所述当前场景图像、所述封闭图形轮廓位置和所述关键字在同一维度下的第一特征;将所述第一特征进行维度合并得到第二特征;根据所述第二特征基于卷积运算和坐标变换,得到所述文字信息中的关键信息在当前场景图像中的位置坐标;基于所述位置坐标和预先保存的所述关键字获取所述结构化区域模板。5.根据权利要求2所述的文字关键信息的提取方法,其特征在于,所述根据所述...
【专利技术属性】
技术研发人员:张旭龙,吴斐,张立,张冰洋,杨华龙,谢晓蓓,李竺虔,罗龙,
申请(专利权)人:北京亮亮视野科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。