一种基于数据分析的印章识别管理系统技术方案

技术编号:39441914 阅读:32 留言:0更新日期:2023-11-19 16:24
本发明专利技术属于印章识别领域,涉及数据分析技术,用于解决现有的印章识别管理系统不具备对提取的文字进行语义分析的功能的问题,具体是一种基于数据分析的印章识别管理系统,包括识别管理平台,所述识别管理平台通信连接有文字提取模块、字段分析模块、语义分析模块以及存储模块;所述文字提取模块用于对电子印章中的文字进行提取分析:将进行识别管理的电子印章标记为识别对象,通过ORC技术对识别对象中的文字进行提取并将提取到的所有字符建立字符集;本发明专利技术可以对电子印章的字符集进行字段分析,通过区域分析模式与特征分析模式分别对字符集进行字段分析,结合语义分析提高电子印章文本提取结果的精确性。文本提取结果的精确性。文本提取结果的精确性。

【技术实现步骤摘要】
一种基于数据分析的印章识别管理系统


[0001]本专利技术属于印章识别领域,涉及数据分析技术,具体是一种基于数据分析的印章识别管理系统。

技术介绍

[0002]电子印章技术以先进的数字技术模拟传统实物印章,其管理、使用方式符合实物印章的习惯和体验,其加盖的电子文件具有与实物印章加盖的纸张文件相同的外观、相同的有效性和相似的使用方式。
[0003]印章识别管理系统一般具有文字提取返还功能,但是现有的印章识别管理系统不具备对提取的文字进行语义分析的功能,而印章的文本阅读方向可能是从左到右,也可能是从右到左;可能是横排文本,也可能是竖排文本,现有的文本检测模型仅依靠视觉信息无法得出电子印章的正确语义,从而导致输出的文字信息存在误差。
[0004]针对上述技术问题,本申请提出一种解决方案。

技术实现思路

[0005]本专利技术的目的在于提供一种基于数据分析的印章识别管理系统,用于解决现有的印章识别管理系统不具备对提取的文字进行语义分析的功能的问题;本专利技术需要解决的技术问题为:如何提供一种可以对提取的文字进行语义分析的基于数据分析的印章识别管理系统。
[0006]本专利技术的目的可以通过以下技术方案实现:一种基于数据分析的印章识别管理系统,包括识别管理平台,所述识别管理平台通信连接有文字提取模块、字段分析模块、语义分析模块以及存储模块;所述文字提取模块用于对电子印章中的文字进行提取分析:将进行识别管理的电子印章标记为识别对象,通过ORC技术对识别对象中的文字进行提取并将提取到的所有字符建立字符集,将字符集发送至识别管理平台,识别管理平台接收到字符集后将字符集发送至字段分析模块;所述字段分析模块用于对电子印章的字符集进行字段分析:字段分析模式包括区域分析模式以及特征分析模式,采用区域分析模式进行字段分析并得到区域字段;采用特征分析模式进行字段分析并得到特征字段,将区域字段以及特征字段通过识别管理平台发送至语义分析模块;所述语义分析模块用于对区域字段以及特征字段进行语义分析:通过存储模块获取到关键字符组,关键字符组中包括若干个关键符,且关键符具有优先级排序,对区域字段进行遍历分析并得到区域字段的输出字符段以及区遍系数,对特征字段进行遍历分析并得到特征字段的输出字符段以及特遍系数,对特征字段进行遍历分析的具体过程与区域字段的遍历分析过程相同;将区遍系数与特遍系数进行比较并通过比较结果得到识别字符段,将识别字符段发送至识别管理平台。
[0007]作为本专利技术的一种优选实施方式,采用区域分析模式进行字段分析的具体过程包括:随机选取字符集中的一个字符并标记为中心符,将在识别对象中与中心符距离最近的字符标记为标记符,将中心符与标记符的中心位置的距离值标记为标记值,通过存储模块获取到标记阈值,将标记值与标记阈值进行比较:若标记值小于标记阈值,则将标记符标记为关联符,将识别对象中与中心符距离第二近的字符标记为标记符,同时对与关联符距离最近的字符是否为中心符进行判定:若是,则将与关联字符距离第二近的字符标记为标记符;若否,则将与关联字符距离最近的字符标记为标记符;以此类推,直至所有标记符的标记值均不小于标记阈值;若标记值大于等于标记阈值,则由中心符与关联符组成一个区域字段;将区域字段中的字符从字符集中删除后,再次随机选取字符集中的一个字符并标记为中心符,直至字符集中的字符均组成对应的区域字段。
[0008]作为本专利技术的一种优选实施方式,采用特征分析模式进行字段分析的具体过程包括:获取字符集中所有字符的特征数据,特征数据包括字符的字体、字符的字号以及字符的色度;将特征数据完全相同的字符组成特征字段。
[0009]作为本专利技术的一种优选实施方式,对区域字段进行遍历分析:随机选取一个区域字段,将选取的区域字段中的字符按照自左向右、自右向左以及自上向下的方向进行排序并分别生成横左字符段、横右字符段以及纵上字符段,将关键字符组中优先级排序第一的关键符标记为比对符,若横左字符段、横右字符段以及纵上字符段有且仅有一个字符段中包含有比对符,则判定遍历分析结束,将包含有比对符的字符段标记为输出字符段,将区域字段的遍历次数进行记录并对下一个区域字段进行遍历分析,直至所有区域字段均完成遍历分析;否则,将关键字符组中优先级排序第二的关键符标记为比对符,以此类推,直至横左字符段、横右字符段以及纵上字符段有且仅有一个字符段中包含有比对符。
[0010]作为本专利技术的一种优选实施方式,区域字段的区遍系数的获取过程包括:获取区域字段语义分析的普遍数据以及多遍数据,普遍数据为所有区域字段进行遍历分析时的遍历次数的平均值,多遍数据的获取过程包括:将区域字段的遍历次数与预设次数阈值进行比较:若遍历次数小于次数阈值,则将对应的区域字段标记为正常字段;若遍历次数大于等于次数阈值,则将对应的区域字段标记为多遍字段,将多遍字段的数量标记为多遍数据;通过对普遍数据与多遍数据进行数值计算得到区域字段的区遍系数。
[0011]作为本专利技术的一种优选实施方式,将区遍系数与特遍系数进行比较的具体过程包括:若区遍系数大于特遍系数,则将区域字段对应的输出字符段标记为识别字符段;若区遍系数小于等于特遍系数,则将特征字段对应的输出字符段标记为识别字符段。
[0012]作为本专利技术的一种优选实施方式,该基于数据分析的印章识别管理系统的工作方法,包括以下步骤:步骤一:对电子印章中的文字进行提取分析:将进行识别管理的电子印章标记为识别对象,通过ORC技术对识别对象中的文字进行提取并将提取到的所有字符建立字符集,将字符集通过识别管理平台发送至字段分析模块;步骤二:对电子印章的字符集进行字段分析:采用区域分析模式对字符集进行字段分析并得到区域字段,采用特征分析模式对字符集进行字段分析并得到特征字段;
步骤三:对区域字段以及特征字段进行语义分析:通过存储模块获取到关键字符组,关键字符组中包括若干个关键符,且关键符具有优先级排序,对区域字段进行遍历分析并得到区域字段的输出字符段以及区遍系数;对特征字段进行遍历分析并得到特征字段的输出字符段以及特遍系数;步骤四:将区遍系数与特遍系数进行比较并通过比较结果得到识别字符段,将识别字符段发送至识别管理平台。
[0013]本专利技术具备下述有益效果:通过ORC技术对电子印章进行扫描,然后对图像文件进行分析处理,获取文字及版面信息,对电子印章中的文字进行自动提取后建立字符集,通过字符集为字段分析模块的字段分析过程提供数据支撑;通过字段分析模块可以对电子印章的字符集进行字段分析,通过区域分析模式与特征分析模式分别对字符集进行字段分析,从而根据字段分析结果得到区域字段与特征字段,区域字段与特征字段是采用不同方式获取到的字符组合,结合语义分析提高电子印章文本提取结果的精确性;通过语义分析模块可以对区域字段以及特征字段进行语义分析,通过对关键符进行优先级排序以及遍历分析,从而对区域字段以及特征字段的划分合理行进行反馈,将划分合理行更高的字段划分方式对应的输出字符段标记为识别字符段,保证识别字符段能够符合电子印章文本的语义表述。
附图说明...

【技术保护点】

【技术特征摘要】
1.一种基于数据分析的印章识别管理系统,其特征在于,包括识别管理平台,所述识别管理平台通信连接有文字提取模块、字段分析模块、语义分析模块以及存储模块;所述文字提取模块用于对电子印章中的文字进行提取分析:将进行识别管理的电子印章标记为识别对象,通过ORC技术对识别对象中的文字进行提取并将提取到的所有字符建立字符集,将字符集发送至识别管理平台,识别管理平台接收到字符集后将字符集发送至字段分析模块;所述字段分析模块用于对电子印章的字符集进行字段分析:字段分析模式包括区域分析模式以及特征分析模式,采用区域分析模式进行字段分析并得到区域字段;采用特征分析模式进行字段分析并得到特征字段,将区域字段以及特征字段通过识别管理平台发送至语义分析模块;所述语义分析模块用于对区域字段以及特征字段进行语义分析:通过存储模块获取到关键字符组,关键字符组中包括若干个关键符,且关键符具有优先级排序,对区域字段进行遍历分析并得到区域字段的输出字符段以及区遍系数,对特征字段进行遍历分析并得到特征字段的输出字符段以及特遍系数,对特征字段进行遍历分析的具体过程与区域字段的遍历分析过程相同;将区遍系数与特遍系数进行比较并通过比较结果得到识别字符段,将识别字符段发送至识别管理平台。2.根据权利要求1所述的一种基于数据分析的印章识别管理系统,其特征在于,采用区域分析模式进行字段分析的具体过程包括:随机选取字符集中的一个字符并标记为中心符,将在识别对象中与中心符距离最近的字符标记为标记符,将中心符与标记符的中心位置的距离值标记为标记值,通过存储模块获取到标记阈值,将标记值与标记阈值进行比较:若标记值小于标记阈值,则将标记符标记为关联符,将识别对象中与中心符距离第二近的字符标记为标记符,同时对与关联符距离最近的字符是否为中心符进行判定:若是,则将与关联字符距离第二近的字符标记为标记符;若否,则将与关联字符距离最近的字符标记为标记符;以此类推,直至所有标记符的标记值均不小于标记阈值;若标记值大于等于标记阈值,则由中心符与关联符组成一个区域字段;将区域字段中的字符从字符集中删除后,再次随机选取字符集中的一个字符并标记为中心符,直至字符集中的字符均组成对应的区域字段。3.根据权利要求2所述的一种基于数据分析的印章识别管理系统,其特征在于,采用特征分析模式进行字段分析的具体过程包括:获取字符集中所有字符的特征数据,特征数据包括字符的字体、字符的字号以及字符的色度;将特征数据完全相同的字符组成特征字段。4.根据权利要求3所述的一种基于数据分析的印章识别管理系统,其特征在于,对区域字段进行遍历分析:随机...

【专利技术属性】
技术研发人员:徐晶
申请(专利权)人:北京惠朗时代科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1