文本处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35071989 阅读:17 留言:0更新日期:2022-09-28 11:34
本公开提出一种文本处理方法、装置、电子设备及存储介质,该方法包括:获取初始文本,其中,初始文本是对图像识别得到;确定与初始文本对应的文本分类特征,其中,文本分类特征描述文本处理信息;根据文本处理信息处理初始文本,得到目标文本。通过本公开,能够在基于图像识别得到文本之后,基于与文本对应的文本分类特征对所识别的文本进行个性化的优化处理,从而能够有效提升基于图像的文本识别的准确率。本公开还能结合机器人流程自动化RPA和人工智能AI实现智能自动化IA的文本处理,进一步减少文本处理所需消耗的资源成本。文本处理所需消耗的资源成本。文本处理所需消耗的资源成本。

【技术实现步骤摘要】
文本处理方法、装置、电子设备及存储介质


[0001]本公开涉及图像识别
,尤其涉及一种文本处理方法、装置、电子设备及存储介质。

技术介绍

[0002]机器人流程自动化(Robotic Process Automation)简称RPA,是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
[0003]人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。
[0004]智能自动化(Intelligent Automation,IA)是一系列从机器人流程自动化到人工智能的技术总称,将RPA与光学字符识别(Optical Character Recognition,OCR)、智能字符识别(Intelligent Character Recognition,ICR)、流程挖掘(Process Mining)、深度学习(Deep Learning,DL)、机器学习(Machine Learning,ML)、自然语言处理(Natural Language Processing,NLP)、语音识别(Automatic Speech Recognition,ASR)、语音合成(Text To Speech,TTS)、计算机视觉(Computer Vision,CV)等多种AI技术相结合,以创建能够思考、学习及自适应的端到端的业务流程,涵盖从流程发现、流程自动化,到通过自动而持续的数据收集、理解数据的含义,使用数据来管理和优化业务流程的整个历程。
[0005]相关技术中,图像中可能有阴影、污渍、不平整和模糊等问题,基于图像的文本识别的准确率比较低。

技术实现思路

[0006]本公开旨在至少在一定程度上解决相关技术中的技术问题之一。
[0007]为此,本公开在于提出一种文本处理方法、装置、电子设备及存储介质,能够在基于图像识别得到文本之后,基于与文本对应的文本分类特征对所识别的文本进行个性化的优化处理,从而能够有效提升基于图像的文本识别的准确率。
[0008]本公开第一方面实施例提出的文本处理方法,包括:获取初始文本,其中,初始文本是对图像识别得到;确定与初始文本对应的文本分类特征,其中,文本分类特征描述文本处理信息;根据文本处理信息处理初始文本,得到目标文本。
[0009]在一种实施方式中,确定与初始文本对应的文本分类特征,包括:
[0010]如果初始文本包括待处理文字,则采用人工智能AI领域的光学字符识别OCR技术确定待处理文字的初始形态特征,其中,初始形态特征被作为文本分类特征;和/或
[0011]如果初始文本包括待处理字符,则采用OCR技术确定待处理字符的初始字符特征,其中,初始字符特征被作为文本分类特征;和/或
[0012]采用OCR技术确定初始文本的初始语义特征,其中,初始语义特征被作为文本分类特征。
[0013]在一种实施方式中,文本处理信息由初始形态特征描述;
[0014]其中,根据文本处理信息处理初始文本,得到目标文本,包括:
[0015]调用机器人流程自动化RPA机器人处理文本处理信息,以确定纠错文字的参考形态特征;
[0016]确定初始形态特征和参考形态特征之间的相似度信息;
[0017]根据相似度信息,确定处理结果值;
[0018]根据处理结果值处理初始文本,得到目标文本。
[0019]在一种实施方式中,处理结果值包括:信心标识,和与信息标识对应的信心评价值;
[0020]其中,根据处理结果值处理初始文本,得到目标文本,包括:
[0021]如果信心标识是目标标识,且信心评价值小于或等于设定阈值,则将初始文本中待处理文字调整为纠错文字,以得到目标文本;
[0022]如果信心标识不是目标标识,或信心评价值大于设定阈值,则将初始文本作为目标文本。
[0023]在一种实施方式中,文本处理信息由初始字符特征描述;
[0024]其中,根据文本处理信息处理初始文本,得到目标文本,包括:
[0025]调用RPA机器人处理文本处理信息,以确定参考字符特征;
[0026]根据参考字符特征对初始文本中待处理字符进行纠正处理,得到目标文本。
[0027]在一种实施方式中,文本处理信息由初始语义特征描述;
[0028]其中,根据文本处理信息处理初始文本,得到目标文本,包括:
[0029]调用RPA机器人处理文本处理信息,以确定纠错对应关系,其中,纠错对应关系包括:多个纠错文本,以及与每个纠错文本对应的纠错标记结果;
[0030]从多个纠错文本中确定与初始文本所匹配的纠错文本,其中,所匹配的纠错文本具有所对应的纠错标记结果;
[0031]根据对应的纠错标记结果对初始文本的已有标记结果进行纠正处理,得到目标文本。
[0032]在一种实施方式中,采用人工智能AI领域的光学字符识别OCR技术确定待处理文字的初始形态特征,包括:
[0033]采用OCR技术确定待处理文字的结构特征、和/或笔画特征、和/或编码特征、和/或偏旁部首特征;
[0034]将结构特征、和/或笔画特征、和/或编码特征、和/或偏旁部首特征作为初始形态特征。
[0035]在一种实施方式中,采用OCR技术确定待处理字符的初始字符特征,包括:
[0036]采用OCR技术确定待处理字符的格式特征,并将格式特征作为初始字符特征。
[0037]在一种实施方式中,采用OCR技术确定初始文本的初始语义特征,包括:
[0038]采用OCR技术确定初始文本的文本语义,和文本语义指示的语义标记结果;
[0039]将文本语义和语义标记结果作为初始语义特征。
[0040]本公开第二方面实施例提出的文本处理装置,包括:获取模块,用于获取初始文本,其中,初始文本是对图像识别得到;确定模块,用于确定与初始文本对应的文本分类特征,其中,文本分类特征描述文本处理信息;处理模块,用于根据文本处理信息处理初始文
本,得到目标文本。
[0041]在一种实施方式中,确定模块,包括:
[0042]第一确定子模块,用于在初始文本包括待处理文字时,采用人工智能AI领域的光学字符识别OCR技术确定待处理文字的初始形态特征,其中,初始形态特征被作为文本分类特征;和/或
[0043]第二确定子模块,用于在初始文本包括待处理字符时,采用OCR技术确定待处理字符的初始字符特征,其中,初始字符特征被作为文本分类特征;和/或
[0044]第三确定子模块,用于采用OCR技术确定初始文本的初始语义特征,其中,初始语义特征被作为文本分类特征。
[0045]在一种实施方式中,文本处理信息由初始形态特征描述;
[0046]其中,处理模块,具体用于:
[0047]调用机器人流程自动化RPA机器人处本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取初始文本,其中,所述初始文本是对图像识别得到;确定与所述初始文本对应的文本分类特征,其中,所述文本分类特征描述文本处理信息;根据所述文本处理信息处理所述初始文本,得到目标文本。2.如权利要求1所述的方法,其特征在于,所述确定与所述初始文本对应的文本分类特征,包括:如果所述初始文本包括待处理文字,则采用人工智能AI领域的光学字符识别OCR技术确定所述待处理文字的初始形态特征,其中,所述初始形态特征被作为所述文本分类特征;和/或如果所述初始文本包括待处理字符,则采用所述OCR技术确定所述待处理字符的初始字符特征,其中,所述初始字符特征被作为所述文本分类特征;和/或采用所述OCR技术确定所述初始文本的初始语义特征,其中,所述初始语义特征被作为所述文本分类特征。3.如权利要求2所述的方法,其特征在于,所述文本处理信息由所述初始形态特征描述;其中,所述根据所述文本处理信息处理所述初始文本,得到目标文本,包括:调用机器人流程自动化RPA机器人处理所述文本处理信息,以确定纠错文字的参考形态特征;确定所述初始形态特征和所述参考形态特征之间的相似度信息;根据所述相似度信息,确定处理结果值;根据所述处理结果值处理所述初始文本,得到所述目标文本。4.如权利要求3所述的方法,其特征在于,所述处理结果值包括:信心标识,和与所述信息标识对应的信心评价值;其中,所述根据所述处理结果值处理所述初始文本,得到所述目标文本,包括:如果所述信心标识是目标标识,且所述信心评价值小于或等于设定阈值,则将所述初始文本中所述待处理文字调整为所述纠错文字,以得到所述目标文本;如果所述信心标识不是所述目标标识,或所述信心评价值大于所述设定阈值,则将所述初始文本作为所述目标文本。5.如权利要求2所述的方法,其特征在于,所述文本处理信息由所述初始字符特征描述;其中,所述根据所述文本处理信息处理所述初始文本,得到目标文本,包括:调用RPA机器人处理所述文本处理信息,以确定参考字符特征;根据所述参考字符特征对所述初始文本中所述待处理字符进行纠正处理,得到所述目标文本。6.如权利要求2所述的方法,其特征在于,所述文本处理信息由所述初始语义特征描述;其中,所述根据所述文本处理信息处理所述初始文本,得到目标文本,包括:调用RPA机器人处理所述文本处理信息,以确定纠错对应关系,其中,所述纠错对应关
系包括:多个纠错文本,以及与每个所述纠错文本对应的纠错标记结果;从所述多个纠错文本中确定与所述初始文本所匹配的纠错文本,其中,所述所匹配的纠错文本具有所对应的纠错标记结果;根据所述对应的纠错标记结果对所述初始文本的已有标记结果进行纠正处理,得到所述目标文本。7.如权利要求2所述的方法,其特征在于,所述采用人工智能AI领域的光学字符识别OCR技术确定所述待处理文字的初始形态特征,包括:采用所述OCR技术确定所述待处理文字的结构特征、和/或笔画特征、和/或编码特征、和/或偏旁...

【专利技术属性】
技术研发人员:岳毅翁嘉颀陈林平
申请(专利权)人:来也科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1