文本提取方法及装置制造方法及图纸

技术编号:33641526 阅读:22 留言:0更新日期:2022-06-02 20:16
本公开涉及一种文本提取方法及装置,应用于人工智能(Artificial Intelligence,AI)领域中的光学字符识别(Optical Character Recognition,OCR)领域,其中,所述方法包括:响应于触摸屏上的触控操作,获取触控区域;通过OCR技术提取触控区域内的第一文本信息;从所述触摸屏上显示的一个或多个文本性控件中确定出与所述触控区域匹配的目标控件;从目标控件中获取第二文本信息;基于第二文本信息对第一文本信息进行调整,获得第三文本信息。本公开提供的文本提取方法及装置,能够方便、快捷、准确地获取用户需要的文本信息。准确地获取用户需要的文本信息。准确地获取用户需要的文本信息。

【技术实现步骤摘要】
文本提取方法及装置


[0001]本公开涉及终端人工智能(Artificial Intelligence,AI)领域中的光学字符识别(Optical Character Recognition,OCR)领域,尤其涉及一种文本提取方法及装置。

技术介绍

[0002]在生活中,文字无处不在,文字是人们感知世界的重要手段。人工智能技术可以模拟、延伸和扩展人的意识和思维。获取文字信息是人工智能技术中的重要环节。
[0003]OCR技术和控件取词技术是两种常见的获取文字信息的方式。OCR技术可以将图片或者纸张上的字符读取出来,并转换成计算机文字。然而,OCR技术对于人眼难以区分的文字无法准确地识别,例如OCR无法准确区分小写的L(即l)和大写的i(即I)。OCR技术对链接中的字符和口令类字符也无法准确的识别。控件取词技术获取到的文字虽然与原文完全一致,但是控件取词取到的是整个控件中的全部文本,需要用户在其中查找需要的部分,操作繁琐。

技术实现思路

[0004]有鉴于此,提出了一种文本提取方法及装置,可以方便、快捷的以及准确地获取到用本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本提取方法,其特征在于,所述方法包括:响应于触摸屏上的触控操作,获取触控区域;通过光学字符识别OCR技术提取所述触控区域内的第一文本信息;从所述触摸屏上显示的一个或多个文本性控件中确定出与所述触控区域匹配的目标控件;从所述目标控件中获取第二文本信息;基于所述第二文本信息对所述第一文本信息进行调整,获得第三文本信息。2.根据权利要求1所述的方法,其特征在于,所述从所述触摸屏上显示的一个或多个文本性控件中确定出与所述触控区域匹配的目标控件包括:获取所述触摸屏上显示的各文本性控件与所述触控区域的交并比;基于所述交并比,确定出所述目标控件。3.根据权利要求1或2所述的方法,其特征在于,所述基于所述第二文本信息对所述第一文本信息进行调整,获得第三文本信息包括:对所述第一文本信息和所述第二文本信息中对应于所述触摸屏上同一位置的字符进行对比;将所述第一文本信息中,与第二文本信息中的字符对应于所述触摸屏上同一位置且内容不一致的字符,确定为目标字符;将第一文本信息中的目标字符替换为与所述目标字符对应于所述触摸屏上同一位置的第二文本信息中的字符,得到所述第三文本信息。4.根据权利要求3所述的方法,其特征在于,所述将第一文本信息中的目标字符替换为与所述目标字符对应于所述触摸屏上同一位置的第二文本信息中的字符,得到所述第三文本信息包括:根据所述目标字符的数量与所述第一文本信息中字符的数量,确定匹配率;在所述匹配率大于第一阈值的情况下,将第一文本信息中的目标字符替换为与所述目标字符对应于所述触摸屏上同一位置的第二文本信息中的字符,得到所述第三文本信息。5.根据权利要求1或2所述的方法,其特征在于,所述基于所述第二文本信息对所述第一文本信息进行调整,获得第三文本信息包括:检测所述第二文本信息中是否存在满足预设格式的字符集;在所述第二文本信息中存在满足所述预设格式的字符集的情况下,从所述第二文本信息中提取出满足所述预设格式的字符集;采用提取出的字符集替换所述第一文本信息,得到所述第三文本信息。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:根据所述第三文本信息,提供与所述预设格式的字符集对应的服务。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述响应于触控操作,获取触控区域包括:响应于所述触控操作,获取起始触控点的位置信息和结束触控点的位置信息;根据所述起始触控点的位置信息和所述结束触控点的位置信息,确定所述触控区域。8.根据权利要求1至6中任一项所述的方法,其特征在于,所述响应于触控操作,获取触控区域包括:
响应于所述触控操作,加载区域选择标记层;基于所述区域选择标记层的确认操作,确定所述触控区域。9.根据权利要求7所述的方法,其特征在于,所述根据所述起始触控点的位置信息和所述结束触控点的位置信息,确定所述触控区域包括:在所述起始触控点与所述结束触控点对应同一文本行的情况下,根据所述起始触控点和所述结束触控点之间的第一区域,确定所述触控区域。10.根据权利要求7所述的方法,其特征在于,所述根据所述起始触控点的位置信息和所述结束触控点的位置信息,确定所述触控区域包括:在所述起始触控点和所述结束触控点对应相邻文本行的情况下,根据所述起始触控点和所述触摸屏的右边界之间的第二区域,以及所述结束触控点和所述触摸屏的左边界之间的第三区域,确定所述触控区域。11.根据权利要求7所述的方法,其特征在于,所述根据所述起始触控点的位置信息和所述结束触控点的位置信息,确定所述触控区域包括:在所述起始触控点和所述结束触控点对应的文本行相隔一个或多个文本行的情况下,根据所述起始触控点和所述触摸屏的右边界之间的第四区域、所述起始触控点对应文本行与所述结束触控点对应文本行之间的第五区域,以及所述结束触控点和所述触摸屏的左边界之间的第六区域,确定所述触控区域。12.根据权利要求9至11中任一项所述的方法,其特征在于,所述根据所述起始触控点的位置信息和所述结束触控点的位置信息,确定所述触控区域包括:将所述起始触控点向所述触摸屏的y轴正向和x轴负向移动第一距离,得到调整后的起始触控点;将所述结束触控点向所述触摸屏的x轴正向和y轴负向移动第二距离,得到调整后的结束触控点;根据调整后的起始触控点的位置信息和调整后的结束触控点的位置信息,确定所述触控区域。13.一种文本提取装置,其特征在于,所述装置包括:第一获取模块,用于响应于触摸屏上的触控操作,获取触控区域;提取模块,用于通过光学字符识别OCR技...

【专利技术属性】
技术研发人员:缪丹
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1