基于RPA和AI的图像识别方法及电子设备技术

技术编号:34630138 阅读:22 留言:0更新日期:2022-08-20 09:43
本发明专利技术公开了基于RPA和AI的图像识别方法及电子设备,涉及人工智能领域。包括:获取扫描文件灰度图;提取各模糊区域的中轴线像素点得到各组中轴线像素点对应的不同字符角度;计算扫描文件灰度图的方向混乱程度,根据扫面文件灰度图的方向混乱程度进行不同的处理,计算每条中轴线像素点为褶皱像素点的概率;计算扫描文件灰度图中每个像素点的参考权重文本字符的匹配程度进行修正,利用OCR技术对扫描文件进行图像识别提取文本内容。本发明专利技术获取纸质文件的扫描图像后,结合褶皱纹理与正常文字的方向差异以及褶皱本身灰度不均匀的特征,对各组数据结合每个像素点的参考权重褶皱概率的进行修正,以提高OCR识别的准确率。以提高OCR识别的准确率。以提高OCR识别的准确率。

【技术实现步骤摘要】
基于RPA和AI的图像识别方法及电子设备


[0001]本专利技术涉及人工智能领域,具体涉及基于RPA和AI的图像识别方法及电子设备。

技术介绍

[0002]机器人流程自动化(Robotic Process Automation,RPA)是一种用于实现用户界面自动化技术的软件工具。它能够按照预先设定好的业务规则和逻辑去完成相应的动作,即以固定的逻辑执行预先编排好的规则,也就是说RPA本身并不具有学习的能力,因此当RPA与AI结合后相当于是在基于规则的自动化基础之上增加了基于人工智能和认知技术的推理、判断和决策能力,可以实现真正的智能流程自动化。
[0003]目前大环境中,电脑办公已经是常态化的现象,然而部分工作还是需要纸质版报告或图表,但是在进行远程交接的时候,就需要电子版的报告、图表等,人为重新制表耗时耗力,所以出现了对图像中的文本进行识别的技术,利用电子设备对纸质版图表进行扫描,利用计算机进行文字识别,获取图像中的文本字符,让机器代替人去进行证件审核乃至于文本审核,首先需要让机器看到人所能看到的,因此在RPA进行数据录入时,使用OCR(光学字符识别)技术将RPA机器人对纸质文件的扫描结果进行文字识别,将文本图像转化成文本,而后才是理解人所能看到的,如使用NLP技术进行纠错分词以及文本分类等,并将最终读取到的数据信息自动录入系统并归档。
[0004]现有技术中利用OCR技术进行文字识别大多是根据传统图像处理的方法或基于深度学习的OCR技术。除却算法本身,图像质量乃是影响OCR识别准确率的最大因素。但是纸质文件在保存或者使用过程中不可避免的会出现褶皱或者脏污,这些因素除了会改变文字的局部特征,还会将褶皱纹理误识别为纹理,使得文字识别结果不准确,进而导致RPA数据录入结果的不准确。

技术实现思路

[0005]针对上述技术问题,本专利技术提供了基于RPA和AI的图像识别方法及电子设备。
[0006]第一方面,本专利技术实施例提供了基于RPA和AI的图像识别方法,包括:获取扫描文件灰度图;对扫描文件灰度图进行高斯模糊得到模糊区域后再进行阈值分割得到扫描文件二值图,提取扫描文件二值图中每个模糊区域中所有的中轴线,该中轴线是由位于同一条直线上的像素点构成,并获取每条中轴线的字符角度;利用扫描文件二值图中每条中轴线的字符角度及各字符角度的频率计算该扫描文件二值图的方向混乱程度,根据扫描文件二值图的方向混乱程度对该扫描文件是否为平整纸面进行判断,若该扫描文件为平整纸面直接对该扫描文件使用OCR技术进行文本字符的识别和提取;若该扫描文件为非平整纸面,利用每条中轴线的字符角度所出现的频率计算该中轴线上像素点为褶皱像素点的初始概率;
获取每条中轴线上所有像素点在扫描文件灰度图中的灰度值,将每条中轴线上灰度值最小的像素点作为该中轴线上的参考点;利用每条中轴线上的每个像素点与该中轴线的参考点之间的距离对该中轴线上像素点为褶皱像素点的初始概率进行修改,得到每条中轴线上像素点为褶皱像素点的最终概率;获取所有中轴线在扫描文件灰度图中的交点,根据扫描文件灰度图中每个像素点到最近距离的交点的距离、及该最近距离的交点所在的中轴线上像素点为褶皱像素点的概率计算扫描文件灰度图中每个像素点的参考权重;利用最近邻分类器结合每个像素点的参考权重对OCR中文本字符的匹配程度进行修正,利用OCR中修正后的文本字符的匹配程度对扫描文件进行图像识别提取文本内容。
[0007]扫描文件二值图的方向混乱程度的计算公式如下:其中,为扫描文件二值图的方向混乱程度,为中轴线的字符角度的数量,为中轴线的字符角度的序号,表示扫描文件灰度图的中轴线的第种字符角度,表示扫描文件灰度图的中轴线的第种字符角度的频率。
[0008]计算扫描文件灰度图中每个像素点的参考权重的过程为:将存在多个方向的中轴线像素点记为交点,即中轴线的交点,获取扫描文件灰度图中的所有交点;根据扫描文件灰度图中每个像素点到最近距离的交点的距离和该最近距离的交点所在的中轴线像素点组为褶皱像素点的概率计算扫描文件灰度图中每个像素点的参考权重,计算公式如下:其中,为扫描文件灰度图中第个像素点的参考权重,为扫描文件灰度图中第个像素点到与该像素点最近距离的交点的距离,表示与第个像素点最近距离的交点,表示存在与该像素点最近距离交点的中轴线上像素点为褶皱像素点的概率的最大值。
[0009]每条中轴线的字符角度及各字符角度的频率的获取方法为:将每条中轴线像素点连接起来得到中轴线,将每条中轴线像素点组成的中轴线向量与水平方向的夹角作为该中轴线的字符角度,并将与看作同一种字符角度情况,统计不同的字符角度的频率得到各字符角度的频率。
[0010]每条中轴线上像素点为褶皱像素点的最终概率的计算方法如下:
选取字符角度的频率最大的频率对应的字符角度中较小的字符角度作为标准字符角度,根据每条中轴线像素点对应的字符角度与标准字符角度的差值绝对值和各中轴线像素点的灰度值对每条中轴线像素点为褶皱像素点的初始概率进行修正,修正初始概率的表达式如下:式中:为第条中轴线上像素点为褶皱像素点的概率,为第条中轴线上像素点为褶皱像素点的初始概率,为标准字符角度,为第条中轴线上第个像素点和第个像素点所组成的向量与水平向量所成的夹角,表示第条中轴线上像素点的序号,表示第条中轴线上像素点的数量,表示第条中轴线上的参考点,为第条中轴线上参考点的灰度值,为第条中轴线上第个像素点与参考点的距离,为第条中轴线上第个像素点的灰度值。
[0011]利用每条中轴线的字符角度所出现的频率计算该中轴线上像素点为褶皱像素点的初始概率的方法为:将每条中轴线对应的字符角度的频率作为该中轴线上像素点为文本字符中轴线上像素点的概率,将该中轴线上像素点不是文本字符中轴线上像素点的概率作为该中轴线上像素点为褶皱像素点的初始概率,即:其中,为第条中轴线上像素点为褶皱像素点的初始概率, 表示扫描文件灰度图的中轴线的第种字符角度的频率,即第条中轴线的第种字符角度为文本字符中轴线像素点的概率。
[0012]第二方面,本专利技术实施例提供了基于RPA和AI的图像识别的电子设备,包括:扫描仪、图像处理单元、数据处理单元和智能机器人。
[0013]扫描仪:用于扫描需要进行文字识别的文件得到扫描文件图像;图像处理单元:用于对扫描仪传输的扫描文件图像进行图像处理得到处理后的图像的图像数据进行后续分析,包括:对扫描文件图像进行灰度化处理得到扫描文件灰度图;对扫描文件灰度图进行高斯模糊得到扫描文件灰度图中的模糊区域,对高斯模糊后包含模糊区域的图像进行自适应阈值分割得到扫描文件二值图,利用K3M算法对扫描文件二值图中的模糊区域进行骨架提取得到每个模糊区域的中轴线;数据处理单元:用于接收图像处理单元得到的处理后的图像的各种图像数据进行计算处理,包括:统计每条中轴线的字符角度的频率;根据得到的各中轴线的每种字符角度的频率计算扫描文件灰度图的方向混乱程度;
计算该扫描文件灰度图中每条中轴线上像素点为褶皱像素点的初始概率;利用每条中轴线上的每个像素点与该中轴线的参本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于RPA和AI的图像识别方法,其特征在于,包括:获取扫描文件灰度图;对扫描文件灰度图进行高斯模糊得到模糊区域后再进行阈值分割得到扫描文件二值图,提取扫描文件二值图中每个模糊区域中所有的中轴线,该中轴线是由位于同一条直线上的像素点构成,并获取每条中轴线的字符角度;利用扫描文件二值图中每条中轴线的字符角度及各字符角度的频率计算该扫描文件二值图的方向混乱程度,根据扫描文件二值图的方向混乱程度对该扫描文件是否为平整纸面进行判断,若该扫描文件为平整纸面直接对该扫描文件使用OCR技术进行文本字符的识别和提取;若该扫描文件为非平整纸面,利用每条中轴线的字符角度所出现的频率计算该中轴线上像素点为褶皱像素点的初始概率;获取每条中轴线上所有像素点在扫描文件灰度图中的灰度值,将每条中轴线上灰度值最小的像素点作为该中轴线上的参考点;利用每条中轴线上的每个像素点与该中轴线的参考点之间的距离对该中轴线上像素点为褶皱像素点的初始概率进行修改,得到每条中轴线上像素点为褶皱像素点的最终概率;获取所有中轴线在扫描文件灰度图中的交点,根据扫描文件灰度图中每个像素点到最近距离的交点的距离、及该最近距离的交点所在的中轴线上像素点为褶皱像素点的概率计算扫描文件灰度图中每个像素点的参考权重;利用最近邻分类器结合每个像素点的参考权重对OCR中文本字符的匹配程度进行修正,利用OCR中修正后的文本字符的匹配程度对扫描文件进行图像识别提取文本内容。2.根据权利要求1所述的基于RPA和AI的图像识别方法,其特征在于,所述扫描文件二值图的方向混乱程度的计算公式如下:其中,为扫描文件二值图的方向混乱程度,为中轴线的字符角度的数量,为中轴线的字符角度的序号,表示扫描文件灰度图的中轴线的第种字符角度,表示扫描文件灰度图的中轴线的第种字符角度的频率。3.根据权利要求1所述的基于RPA和AI的图像识别方法,其特征在于,所述计算扫描文件灰度图中每个像素点的参考权重的过程为:将存在多个方向的中轴线像素点记为交点,即中轴线的交点,获取扫描文件灰度图中的所有交点;根据扫描文件灰度图中每个像素点到最近距离的交点的距离和该最近距离的交点所在的中轴线像素点组为褶皱像素点的概率计算扫描文件灰度图中每个像素点的参考权重,计算公式如下:
其中,为扫描文件灰度图中第个像素点的参考权重,为扫描文件灰度图中第个像素点到与该像素点最近距离的交点的距离,表示与第个像素点最近距离的交点,表示存在与该像素点最近距离交点的中轴线上像素点为褶皱像素点的概率的最大值。4.根据权利要求1所述的基于RPA和AI的图像识别方法,其特征在于,所述每条中轴线的字符角度及各字符角度的频率的获取方法为:将每条中轴线像素点连接起来得到中轴线,将每条中轴线像素点组成的中轴线向量与水平方向的夹角作为该中轴线的字符角度,并将与看作同一种字符角度情况,统计不同的字符角度的频率得到各字符角度的频率。5.根据权利要求1所述的基于RPA和AI的图像识别方法,其特征在于,所述每条中轴线上像素点为褶皱像素点的最终概率的计算方法如下:...

【专利技术属性】
技术研发人员:刘艳卢小鹏
申请(专利权)人:富璟科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1