图像中文本的智能标注方法、装置及存储介质制造方法及图纸

技术编号:24577298 阅读:13 留言:0更新日期:2020-06-21 00:33
本发明专利技术提供了一种图像中文本的智能标注方法、装置、电子设备及存储介质;方法包括:对包含文本内容的页面进行截图,得到包含所述文本内容的待标注图像;所述文本内容与目标语言匹配;对所述页面中的文本内容进行提取,得到所述页面的目标语言文本;对所述待标注图像进行光学字符识别,得到对应所述待标注图像的光学字符识别文本;获取所述目标语言文本中与所述光学字符识别文本对应的目标文本;基于所述目标文本,对所述待标注图像进行文本标注,得到图像标注样本;通过本发明专利技术,能够对图像进行自动化文本标注,提高样本标注效率,在短时间内为模型训练提供大量的标注样本。

Intelligent annotation method, device and storage medium of text in image

【技术实现步骤摘要】
图像中文本的智能标注方法、装置及存储介质
本专利技术涉及人工智能
,尤其涉及一种图像中文本的智能标注方法、装置、电子设备及存储介质。
技术介绍
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中,计算机视觉技术(CV,ComputerVision)是一门研究如何使机器“看”的科学,通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别文字识别(OCR,OpticalCharacterRecognition)等技术。而随着人工智能技术逐渐成熟,图像OCR技术越来越广泛地应用到日常生活中。为了得到识别精确更高的图像OCR识别模型,需要通过大量的已标注样本对图像OCR模型进行训练。相关技术中在构建训练样本时,通常采用手动输入等人工标注的方式实现,不仅耗费人力成本,还大大降低了样本的标注效率,给模型训练上带来了极大的困难。
技术实现思路
本专利技术实施例提供一种图像中文本的智能标注方法、装置、电子设备及存储介质,能够对图像进行自动化文本标注,提高样本标注效率,在短时间内为模型训练提供大量的标注样本。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供一种图像中文本的智能标注方法,包括:对包含文本内容的页面进行截图,得到包含所述文本内容的待标注图像;所述文本内容与目标语言匹配;对所述页面中的文本内容进行提取,得到所述页面的目标语言文本;对所述待标注图像进行光学字符识别,得到对应所述待标注图像的光学字符识别文本;获取所述目标语言文本中与所述光学字符识别文本对应的目标文本;基于所述目标文本,对所述待标注图像进行文本标注,得到图像标注样本,所述图像标注样本用于供训练光学字符识别模型,以使训练得到的所述光学字符识别模型能够对输入的包含目标语言的文本的待识别图像进行文本识别,并输出对应所述目标语言的识别文本。本专利技术实施例还提供一种图像中文本的智能标注装置,包括:截图模块,用于对包含文本内容的页面进行截图,得到包含所述文本内容的待标注图像;所述文本内容与目标语言匹配;文本提取模块,用于对所述页面中的文本内容进行提取,得到所述页面的目标语言文本;识别模块,用于对所述待标注图像进行光学字符识别,得到对应所述待标注图像的光学字符识别文本;获取模块,用于获取所述目标语言文本中与所述光学字符识别文本对应的目标文本;标注模块,用于基于所述目标文本,对所述待标注图像进行文本标注,得到图像标注样本,所述图像标注样本用于供训练光学字符识别模型,以使训练得到的所述光学字符识别模型能够对输入的包含目标语言的文本的待识别图像进行文本识别,并输出对应所述目标语言的识别文本。上述方案中,所述截图模块,还用于基于自动化测试工具模拟所述页面的浏览过程;在模拟的所述浏览过程中,对所述页面进行截图,得到所述待标注图像。上述方案中,所述截图模块,还用于通过所述自动化测试工具模拟浏览器,并基于模拟得到的所述浏览器打开对应目标网址的页面;调整模拟得到的所述浏览器的窗口大小至目标窗口大小;将所述对应目标网址的页面,在所述目标窗口大小的浏览器的窗口中循环滚动,以实现对所述页面的浏览。上述方案中,所述截图模块,还用于获取上一次对所述页面进行截图所对应的第一截图时间及截图周期;当基于所述第一截图时间及截图周期确定第二截图时间到达时,获取所述页面对应的浏览状态;当所述浏览状态表征未浏览至所述页面的底部时,对所述页面进行截图,得到所述待标注图像。上述方案中,所述文本提取模块,还用于对所述页面中的文本内容进行提取,得到原始文本信息;对所述原始文本信息进行字符编码,得到相应的编码文本;对所述编码文本进行文本清洗,以过滤目标类型的符号,得到所述目标语言文本。上述方案中,所述获取模块,还用于对所述光学字符识别文本进行文本解析,得到所述光学字符识别文本中包含的各单行文本;分别获取各所述单行文本对应的文本标识,所述文本标识用于标识相应的单行文本;基于所述文本标识,获取所述目标语言文本中与各所述单行文本对应的单行目标文本,将获得的各所述单行目标文本作为所述目标文本。上述方案中,所述获取模块,还用于分别提取各所述单行文本的首尾词,将提取的所述首尾词作为相应的单行文本的文本标识;相应的,所述基于所述文本标识,获取所述目标语言文本中与各所述单行文本对应的单行目标文本,包括:分别将各所述单行文本的首尾词与所述目标语言文本中的文本进行词语匹配,以基于匹配结果得到所述目标语言文本中与各所述单行文本对应的单行目标文本。上述方案中,所述标注模块,还用于确定对应所述目标文本的光学字符识别文本在所述待标注图像中所处的目标位置;将所述目标文本与所述目标位置进行绑定,以实现对所述待标注图像的文本标注。本专利技术实施例还提供一种电子设备,包括:存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现本专利技术实施例提供的图像中文本的智能标注方法。本专利技术实施例还提供一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时,实现本专利技术实施例提供的图像中文本的智能标注方法。本专利技术实施例具有以下有益效果:通过对包含目标语言的文本的页面进行截图,得到包含文本的待标注图像,利用光学字符识别技术得到待标注图像的光学字符识别文本;然后对截图的页面进行文本提取,得到页面的目标语言文本,进而在目标语言文本中查找与光学字符识别文本对应的目标文本,以基于目标文本对待标注图像进行文本标注,得到图像标注样本;如此,在整个图像的文本标注过程中,不再需要人为识别并手动输入所要标注的内容,实现了图像的文本标注的自动化,提高了样本的标注效率,在短时间内为模型训练提供大量的标注样本,缓解了模型训练上的困难。附图说明图1是相关技术中提供的图像中文本的标注方法的示意图;图2是本专利技术实施例提供的图像中文本的智能标注方法的实施场景示意图;图3是本专利技术实施例提供的电子设备的结构示意图;图4是本专利技术实施例提供的图像中文本的智能标注方法的流程示意图;图5是本专利技术实施例提供的待标注图像的示意图;图6是本专利技术实施例提供的光学字符识别文本在待标注图像所处的目标位置示意图;图7是本专利技术实施例提供的图像中文本的智能标注方法的数据流向图;图8是本专利技术实施例提供的图像中文本的智能标注方法的流程示意图;图9是本专利技术实施例提供的图像中文本的智能标注装置的结构示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,所描述的实施例不应视为对本专利技术的限制,本领域普通技术人员在没有本文档来自技高网...

【技术保护点】
1.一种图像中文本的智能标注方法,其特征在于,所述方法包括:/n对包含文本内容的页面进行截图,得到包含所述文本内容的待标注图像;所述文本内容与目标语言匹配;/n对所述页面中的文本内容进行提取,得到所述页面的目标语言文本;/n对所述待标注图像进行光学字符识别,得到对应所述待标注图像的光学字符识别文本;/n获取所述目标语言文本中与所述光学字符识别文本对应的目标文本;/n基于所述目标文本,对所述待标注图像进行文本标注,得到图像标注样本,所述图像标注样本用于供训练光学字符识别模型,以使训练得到的所述光学字符识别模型能够对输入的包含目标语言的文本的待识别图像进行文本识别,并输出对应所述目标语言的识别文本。/n

【技术特征摘要】
1.一种图像中文本的智能标注方法,其特征在于,所述方法包括:
对包含文本内容的页面进行截图,得到包含所述文本内容的待标注图像;所述文本内容与目标语言匹配;
对所述页面中的文本内容进行提取,得到所述页面的目标语言文本;
对所述待标注图像进行光学字符识别,得到对应所述待标注图像的光学字符识别文本;
获取所述目标语言文本中与所述光学字符识别文本对应的目标文本;
基于所述目标文本,对所述待标注图像进行文本标注,得到图像标注样本,所述图像标注样本用于供训练光学字符识别模型,以使训练得到的所述光学字符识别模型能够对输入的包含目标语言的文本的待识别图像进行文本识别,并输出对应所述目标语言的识别文本。


2.如权利要求1所述的方法,其特征在于,所述对包含文本内容的页面进行截图,得到包含所述文本内容的待标注图像,包括:
基于自动化测试工具模拟所述页面的浏览过程;
在模拟的所述浏览过程中,对所述页面进行截图,得到所述待标注图像。


3.如权利要求2所述的方法,其特征在于,所述基于自动化测试工具模拟所述页面的浏览过程,包括:
通过所述自动化测试工具模拟浏览器,并基于模拟得到的所述浏览器打开对应目标网址的页面;
调整模拟得到的所述浏览器的窗口大小至目标窗口大小;
将所述对应目标网址的页面,在所述目标窗口大小的浏览器的窗口中循环滚动,以实现对所述页面的浏览。


4.如权利要求2所述的方法,其特征在于,所述在模拟的所述浏览过程中,对所述页面进行截图,得到所述待标注图像,包括:
获取上一次对所述页面进行截图所对应的第一截图时间及截图周期;
当基于所述第一截图时间及截图周期确定第二截图时间到达时,获取所述页面对应的浏览状态;
当所述浏览状态表征未浏览至所述页面的底部时,对所述页面进行截图,得到所述待标注图像。


5.如权利要求1所述的方法,其特征在于,所述对所述页面中的文本内容进行提取,得到所述页面的目标语言文本,包括:
对所述页面中的文本内容进行提取,得到原始文本信息;
对所述原始文本信息进行字符编码,得到相应的编码文本;
对所述编码文本进行文本清洗,以过滤目标类型的符号,得到所述目标语言文本。


6.如权利要求1...

【专利技术属性】
技术研发人员:黄杰袁星宇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1