一种基于智能识别文件中图片内容的方法及装置制造方法及图纸

技术编号:28490962 阅读:13 留言:0更新日期:2021-05-19 22:13
本发明专利技术涉及文字识别领域,具体公开了一种基于智能识别文件中图片内容的方法,其特征在于,包括以下步骤:获取待处理招标文件,生成待识别图片,所述待识别图片中存在至少一个文字序列;对所述待识别图片中的每个文字序列进行数据预处理,获得每个文字序列中各字符相匹配的字符特征,所述字符特征包括语义特征信息和坐标信息;根据每个文字序列中各字符相匹配的字符特征具有的语义特征信息和坐标信息,获得所述待识别图片中的文字识别结果。本发明专利技术利用了文本的语义特征,融合了文字在图像上的坐标信息,提高了图像的文字识别的准确度,能够快速识别图像中的文字,较少了专家评审时间,提高了工作效率。高了工作效率。高了工作效率。

【技术实现步骤摘要】
一种基于智能识别文件中图片内容的方法及装置


[0001]本专利技术涉及文字识别领域,特别是涉及一种基于智能识别文件中图片内容的方法及装置

技术介绍

[0002]按照广电企【2019】8号文《关于印发公司深化招标管理改革任务分解表的通知》整体要求,通过利用供应商数据重构等技术实现客观分智能计算、投标文件自动定位、智能辅助验真,减轻专家评标时客观分评审工作量、减少专家机械工作内容、对投标文件所提供资料进行验真。现有技术采用的是人工审查方式对招标文件内容进行评分,不仅使得评分时间较长率较低,还使得评分不够精确。

技术实现思路

[0003]针对上述问题,本专利技术的目的在于提供了一种基于智能识别文件中图片内容的方法及装置。
[0004]为解决上述问题,本专利技术第一方面提供了一种基于智能识别文件中图片内容的方法,包括以下步骤:S1.获取待处理招标文件,生成待识别图片,所述待识别图片中存在至少一个文字序列;S2.对所述待识别图片中的每个文字序列进行数据预处理,获得每个文字序列中各字符相匹配的字符特征,所述字符特征包括语义特征信息和坐标信息;S3.根据每个文字序列中各字符相匹配的字符特征具有的语义特征信息和坐标信息,获得所述待识别图片中的文字识别结果。
[0005]优选地,步骤S1中,所述招标文件包括:营业执照信息、财务数据、业绩数据、产品价格、产品质量及库存数量投标时间信息。
[0006]优选地,步骤S2具体为:根据所述待识别图片中每个文字序列中各字符的语义特征进行分析,得到每个文字序列中各字符相匹配的语义向量标签;确定所述待识别图片中每个文字序列中各字符的坐标信息;根据各字符的坐标信息进行标识和坐标校正,得到各字符的位置向量标签,所述位置向量标签与所述语义向量标签的坐标相同;对每个字符的语义向量标签和位置向量标签进行数据融合,得到每个字符的字符特征。
[0007]优选地,根据所述待识别图片中每个文字序列中各字符的语义特征进行分析,得到每个文字序列中各字符相匹配的语义向量标签包括:对于所述待识别图片中的各字符,加权融合所述字符所属文字序列中所有字符的语义特征信息,得到所述字符的语义向量标签。
[0008]优选地,根据各字符的坐标信息进行标识和坐标校正,得到各字符的位置向量标签包括:确定所述待识别图片中表征各字符的像素点;根据各个字符相匹配的多个像素点的坐标信息,确定每个字符的位置向量;根据各个字符相匹配的语义向量标签的水平方向
和垂直方向,对各个字符的位置向量进行坐标校正,得到水平方向和垂直方向与语义向量标签具有相同方向的位置向量标签。
[0009]优选地,根据各个字符相匹配的多个像素点的坐标信息,确定每个字符的位置向量包括设水平方向的向量坐标为,垂直平方向的向量坐标为,则坐标向量为其中,n为像素点数,x
j
为任一点水平向量坐标,y
j
为任一点垂直向量坐标。
[0010]优选地,将每个文字序列中各字符相匹配的字符特征输入到内容分析模型中,确定各字符的上下文内容,所述内容分析模型用于分析各字符的上下文内容;根据各字符的上下文内容,确定出各字符所属的领域标签;将每个文字序列中各字符的上下文内容以及各字符所属的领域标签输入到判断模型中,得到所述待识别图片中的文字识别结果。
[0011]本专利技术第二方面提供了一种基于智能识别文件中图片内容的装置,包括:获取数据模块:所述的获取数据模块模块用于:获取待处理招标文件,生成待识别图片,所述待识别图片中存在至少一个文字序列;文字处理模块:所述的文字处理模块用于对所述待识别图片中的每个文字序列进行数据预处理,获得每个文字序列中各字符相匹配的字符特征,所述字符特征包括语义特征信息和坐标信息;文字识别模块:所述的文字识别模块用于根据每个文字序列中各字符相匹配的字符特征具有的语义特征信息和坐标信息,获得所述待识别图片中的文字识别结果。
[0012]与现有技术相比,本专利技术具有的有益效果为:本专利技术利用了文本的语义特征,融合了文字在图像上的坐标信息,提高了图像的文字识别的准确度,能够快速识别图像中的文字,较少了专家评审时间,提高了工作效率。
附图说明
[0013]图1为本专利技术实施例提供的一种基于智能识别文件中图片内容的方法的流程图;图2为本专利技术实施例提供的一种基于智能识别文件中图片内容的装置的示意图;
具体实施方式
[0014]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0015]请参阅图1,本专利技术实施例提供了一种基于智能识别文件中图片内容的方法,包括以下步骤:S1.获取待处理招标文件,生成待识别图片,所述待识别图片中存在至少一个文字序列;在本专利技术实施例中,步骤S1中,所述招标文件包括:营业执照信息、财务数据、业绩数据、产品价格、产品质量及库存数量投标时间信息。
[0016]S2.对所述待识别图片中的每个文字序列进行数据预处理,获得每个文字序列中各字符相匹配的字符特征,所述字符特征包括语义特征信息和坐标信息;
在本专利技术实施例中,步骤S2具体为:根据所述待识别图片中每个文字序列中各字符的语义特征进行分析,得到每个文字序列中各字符相匹配的语义向量标签;确定所述待识别图片中每个文字序列中各字符的坐标信息;根据各字符的坐标信息进行标识和坐标校正,得到各字符的位置向量标签,所述位置向量标签与所述语义向量标签的坐标相同;对每个字符的语义向量标签和位置向量标签进行数据融合,得到每个字符的字符特征。
[0017]在本专利技术实施例中,根据所述待识别图片中每个文字序列中各字符的语义特征进行分析,得到每个文字序列中各字符相匹配的语义向量标签包括:对于所述待识别图片中的各字符,加权融合所述字符所属文字序列中所有字符的语义特征信息,得到所述字符的语义向量标签。
[0018]在本专利技术实施例中,根据各字符的坐标信息进行标识和坐标校正,得到各字符的位置向量标签包括:确定所述待识别图片中表征各字符的像素点;根据各个字符相匹配的多个像素点的坐标信息,确定每个字符的位置向量;根据各个字符相匹配的语义向量标签的水平方向和垂直方向,对各个字符的位置向量进行坐标校正,得到水平方向和垂直方向与语义向量标签具有相同方向的位置向量标签。
[0019]在本专利技术实施例中,根据各个字符相匹配的多个像素点的坐标信息,确定每个字符的位置向量包括设水平方向的向量坐标为,垂直平方向的向量坐标为,则坐标向量为其中,n为像素点数,x
j
为任一点水平向量坐标,y
j
为任一点垂直向量坐标。
[0020]S3.根据每个文字序列中各字符相匹配的字符特征具有的语义特征信息和坐标信息,获得所述待识别图片中的文字识别结果。
[0021]在本专利技术实施例中,将每个文字序列中各字符相匹配的字符特征输入到内容分析模型中,确定各字符的上下文内容,所述内容分析本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于智能识别文件中图片内容的方法,其特征在于,包括以下步骤:S1.获取待处理招标文件,生成待识别图片,所述待识别图片中存在至少一个文字序列;S2.对所述待识别图片中的每个文字序列进行数据预处理,获得每个文字序列中各字符相匹配的字符特征,所述字符特征包括语义特征信息和坐标信息;S3.根据每个文字序列中各字符相匹配的字符特征具有的语义特征信息和坐标信息,获得所述待识别图片中的文字识别结果。2.根据权利要求1所述的基于智能识别文件中图片内容的方法,其特征在于,步骤S1中,所述招标文件包括:营业执照信息、财务数据、业绩数据、产品价格、产品质量及库存数量投标时间信息。3.根据权利要求1所述的基于智能识别文件中图片内容的方法,其特征在于,步骤S2具体为:根据所述待识别图片中每个文字序列中各字符的语义特征进行分析,得到每个文字序列中各字符相匹配的语义向量标签;确定所述待识别图片中每个文字序列中各字符的坐标信息;根据各字符的坐标信息进行标识和坐标校正,得到各字符的位置向量标签,所述位置向量标签与所述语义向量标签的坐标相同;对每个字符的语义向量标签和位置向量标签进行数据融合,得到每个字符的字符特征。4.根据权利要求3所述的基于智能识别文件中图片内容的方法,其特征在于,根据所述待识别图片中每个文字序列中各字符的语义特征进行分析,得到每个文字序列中各字符相匹配的语义向量标签包括:对于所述待识别图片中的各字符,加权融合所述字符所属文字序列中所有字符的语义特征信息,得到所述字符的语义向量标签。5.根据权利要求3所述的基于智能识别文件中图片内容的方法,其特征在于,根据各字符的坐标信息进行标识和坐标校正,得到各字符的位置向量标签包括:确定所述待识别图片中表征各字符的像素点;根据各个字符相匹配的多个像素点的坐标信息,确定每个...

【专利技术属性】
技术研发人员:陈剑光谢化安谢志武李根杨灿魁李志佟忠正雷璟王栋肖琪
申请(专利权)人:广东电网有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1