图像中文本的智能标注方法、装置及存储介质制造方法及图纸

技术编号：24577298 阅读：13 留言：0更新日期：2020-06-21 00:33

本发明专利技术提供了一种图像中文本的智能标注方法、装置、电子设备及存储介质；方法包括：对包含文本内容的页面进行截图，得到包含所述文本内容的待标注图像；所述文本内容与目标语言匹配；对所述页面中的文本内容进行提取，得到所述页面的目标语言文本；对所述待标注图像进行光学字符识别，得到对应所述待标注图像的光学字符识别文本；获取所述目标语言文本中与所述光学字符识别文本对应的目标文本；基于所述目标文本，对所述待标注图像进行文本标注，得到图像标注样本；通过本发明专利技术，能够对图像进行自动化文本标注，提高样本标注效率，在短时间内为模型训练提供大量的标注样本。

Intelligent annotation method, device and storage medium of text in image

全部详细技术资料下载

【技术实现步骤摘要】
图像中文本的智能标注方法、装置及存储介质
本专利技术涉及人工智能
，尤其涉及一种图像中文本的智能标注方法、装置、电子设备及存储介质。
技术介绍
人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中，计算机视觉技术(CV，ComputerVision)是一门研究如何使机器“看”的科学，通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别文字识别(OCR，OpticalCharacterRecognition)等技术。而随着人工智能技术逐渐成熟，图像OCR技术越来越广泛地应用到日常生活中。为了得到识别精确更高的图像OCR识别模型，需要通过大量的已标注样本对图像OCR模型进行训练。相关技术中在构建训练样本时，通常采用手动输入等人工标注的方式实现，不仅耗费人力成本，还大大降低了样本的标注效率，给模型训练上带来了极大的困难。
技术实现思路
本专利技术实施例提供一种图像中文本的智能标注方法、装置、电子设备及存储介质，能够对图像进行自动化文本标注，提高样本标注效率，在短时间内为模型训练提供大量的标注样本。本专利技术实施例的技术方案是这样实现的：本专利技术实施例提供一种图像中文本的智能标注方法，包括：对包含文本内容的页面进行截图，得到包含所述文本内容的待标注图像；所述文本内容与目标语言匹配；对所述页面中的文本内容进行提取，...

【技术保护点】
1.一种图像中文本的智能标注方法，其特征在于，所述方法包括：/n对包含文本内容的页面进行截图，得到包含所述文本内容的待标注图像；所述文本内容与目标语言匹配；/n对所述页面中的文本内容进行提取，得到所述页面的目标语言文本；/n对所述待标注图像进行光学字符识别，得到对应所述待标注图像的光学字符识别文本；/n获取所述目标语言文本中与所述光学字符识别文本对应的目标文本；/n基于所述目标文本，对所述待标注图像进行文本标注，得到图像标注样本，所述图像标注样本用于供训练光学字符识别模型，以使训练得到的所述光学字符识别模型能够对输入的包含目标语言的文本的待识别图像进行文本识别，并输出对应所述目标语言的识别文本。/n

【技术特征摘要】
1.一种图像中文本的智能标注方法，其特征在于，所述方法包括：
对包含文本内容的页面进行截图，得到包含所述文本内容的待标注图像；所述文本内容与目标语言匹配；
对所述页面中的文本内容进行提取，得到所述页面的目标语言文本；
对所述待标注图像进行光学字符识别，得到对应所述待标注图像的光学字符识别文本；
获取所述目标语言文本中与所述光学字符识别文本对应的目标文本；
基于所述目标文本，对所述待标注图像进行文本标注，得到图像标注样本，所述图像标注样本用于供训练光学字符识别模型，以使训练得到的所述光学字符识别模型能够对输入的包含目标语言的文本的待识别图像进行文本识别，并输出对应所述目标语言的识别文本。

2.如权利要求1所述的方法，其特征在于，所述对包含文本内容的页面进行截图，得到包含所述文本内容的待标注图像，包括：
基于自动化测试工具模拟所述页面的浏览过程；
在模拟的所述浏览过程中，对所述页面进行截图，得到所述待标注图像。

3.如权利要求2所述的方法，其特征在于，所述基于自动化测试工具模拟所述页面的浏览过程，包括：
通过所述自动化测试工具模拟浏览器，并基于模拟得到的所述浏览器打开对应目标网址的页面；
调整模拟得到的所述浏览器的窗口大小至目标窗口大小；
将所述对应目标网址的页面，在所述目标窗口大小的浏览器的窗口中循环滚动，以实现对所述页面的浏览。

4.如权利要求2所述的方法，其特征在于，所述在模拟的所述浏览过程中，对所述页面进行截图，得到所述待标注图像，包括：
获取上一次对所述页面进行截图所对应的第一截图时间及截图周期；
当基于所述第一截图时间及截图周期确定第二截图时间到达时，获取所述页面对应的浏览状态；
当所述浏览状态表征未浏览至所述页面的底部时，对所述页面进行截图，得到所述待标注图像。

5.如权利要求1所述的方法，其特征在于，所述对所述页面中的文本内容进行提取，得到所述页面的目标语言文本，包括：
对所述页面中的文本内容进行提取，得到原始文本信息；
对所述原始文本信息进行字符编码，得到相应的编码文本；
对所述编码文本进行文本清洗，以过滤目标类型的符号，得到所述目标语言文本。

6.如权利要求1...

【专利技术属性】
技术研发人员：黄杰，袁星宇，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人