【技术实现步骤摘要】
文本图像标注方法、装置、计算机可读存储介质及设备
本申请涉及计算机
,具体而言,涉及一种文本图像标注方法、文本图像标注装置、计算机可读存储介质及电子设备。
技术介绍
随着计算机技术的不断发展,可以通过训练得到的神经网络模型实现图像识别、文字识别、语音识别等功能。一般来说,在模型训练之前,通常需要准备大量的数据样本,以供模型参数调整,而数据样本一般是由人工进行标注的。对于文字识别领域而言,通过人工标注样本就意味着,需要人工进行大量的文字输入工作,而这样容易造成样本标注效率较低的问题。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本申请的目的在于提供一种文本图像标注方法、文本图像标注装置、计算机可读存储介质及电子设备,可以通过采集音频以及音频转文字的方式简化人工输入文字的工作,进而可以提升样本的标注效率。本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。根据本申请的一方面,提供一种文本图像标注方法,包括:展示包含文本区域的待处理图像;当检测到针对待处理图像的框选操作时,根据框选操作从待处理图像中确定目标文本区域;根据检测到的语音输入操作采集音频信号,并将音频信号转换为字符序列;根据字符序列生成对目标文本区域的文本标注结果。在本申请的一种示例性实施例中,根据框选操作从待处理图像中确定目标文本区域,包 ...
【技术保护点】
1.一种文本图像标注方法,其特征在于,包括:/n展示包含文本区域的待处理图像;/n当检测到针对所述待处理图像的框选操作时,根据所述框选操作从所述待处理图像中确定目标文本区域;/n根据检测到的语音输入操作采集音频信号,并将所述音频信号转换为字符序列;/n根据所述字符序列生成对所述目标文本区域的文本标注结果。/n
【技术特征摘要】
1.一种文本图像标注方法,其特征在于,包括:
展示包含文本区域的待处理图像;
当检测到针对所述待处理图像的框选操作时,根据所述框选操作从所述待处理图像中确定目标文本区域;
根据检测到的语音输入操作采集音频信号,并将所述音频信号转换为字符序列;
根据所述字符序列生成对所述目标文本区域的文本标注结果。
2.根据权利要求1所述的方法,其特征在于,根据所述框选操作从所述待处理图像中确定目标文本区域,包括:
当在所述待处理图像中检测到第一交互操作时,追踪交互焦点直到检测到第二交互操作;其中,所述框选操作包括所述第一交互操作和所述第二交互操作;
根据所述第一交互操作和所述第二交互操作之间的追踪轨迹确定所述目标文本区域。
3.根据权利要求2所述的方法,其特征在于,根据所述第一交互操作和所述第二交互操作之间的追踪轨迹确定所述目标文本区域,包括:
根据所述第一交互操作从所述待处理图像中确定第一交互位置,以及根据所述追踪轨迹从所述待处理图像中确定与所述第二交互操作对应的第二交互位置;
确定所述第一交互位置和所述第二交互位置之间的直线距离;
根据所述直线距离框选所述目标文本区域。
4.根据权利要求3所述的方法,其特征在于,根据所述直线距离框选所述目标文本区域,包括:
根据所述直线距离从所述待处理图像中确定出参考区域;
若检测到区域调整操作,则根据所述区域调整操作调整所述参考区域,并将调整结果确定为所述目标文本区域;
其中,所述区域调整操作用于对所述参考区域进行尺寸调整和/或位置调整。
5.根据权利要求3所述的方法,其特征在于,根据所述直线距离框选所述目标文本区域,包括:
对所述待处理图像进行预处理;其中,所述预处理包括灰度处理和/或二值化处理;
根据预处理结果和所述直线距离框选所述目标文本区域。
6.根据权利要求1所述的方法,其特征在于,将所述音频信号转换为字符序列,包括:
对所述音频信号进行去噪处理;
将去噪处理后的音频信号转换为所述字符序列。
7.根据权利要求1所述的方法,其特征在于,将所述音频信号转换为字符序列之后,所述方法还包括:
在预设展示区域展示所述字符序列;
若检测到字符序列调整操作,则响应于所述字符序列调整操作对所述字符序列进行调整。
8.根据权利要求1所述的方法,其特征在于,根据所述框选操作从...
【专利技术属性】
技术研发人员:邓茜萌,李玉林,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。