文本图像标注方法、装置、计算机可读存储介质及设备制造方法及图纸

技术编号:26304864 阅读:29 留言:0更新日期:2020-11-10 20:01
本申请提供一种文本图像标注方法、文本图像标注装置、计算机可读存储介质及电子设备;涉及计算机技术领域;展示包含文本区域的待处理图像;当检测到针对待处理图像的框选操作时,根据框选操作从待处理图像中确定目标文本区域;根据检测到的语音输入操作采集音频信号,并将音频信号转换为字符序列;根据字符序列生成对目标文本区域的文本标注结果。可见,实施本申请的技术方案,可以通过采集音频以及音频转文字的方式简化人工输入文字的工作,进而可以提升样本的标注效率。

【技术实现步骤摘要】
文本图像标注方法、装置、计算机可读存储介质及设备
本申请涉及计算机
,具体而言,涉及一种文本图像标注方法、文本图像标注装置、计算机可读存储介质及电子设备。
技术介绍
随着计算机技术的不断发展,可以通过训练得到的神经网络模型实现图像识别、文字识别、语音识别等功能。一般来说,在模型训练之前,通常需要准备大量的数据样本,以供模型参数调整,而数据样本一般是由人工进行标注的。对于文字识别领域而言,通过人工标注样本就意味着,需要人工进行大量的文字输入工作,而这样容易造成样本标注效率较低的问题。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本申请的目的在于提供一种文本图像标注方法、文本图像标注装置、计算机可读存储介质及电子设备,可以通过采集音频以及音频转文字的方式简化人工输入文字的工作,进而可以提升样本的标注效率。本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。根据本申请的一方面,提供一种文本图像标注方法,包括:展示包含文本区域的待处理图像;当检测到针对待处理图像的框选操作时,根据框选操作从待处理图像中确定目标文本区域;根据检测到的语音输入操作采集音频信号,并将音频信号转换为字符序列;根据字符序列生成对目标文本区域的文本标注结果。在本申请的一种示例性实施例中,根据框选操作从待处理图像中确定目标文本区域,包括:当在待处理图像中检测到第一交互操作时,追踪交互焦点直到检测到第二交互操作;其中,框选操作包括第一交互操作和第二交互操作;根据第一交互操作和第二交互操作之间的追踪轨迹确定目标文本区域。在本申请的一种示例性实施例中,根据第一交互操作和第二交互操作之间的追踪轨迹确定目标文本区域,包括:根据第一交互操作从待处理图像中确定第一交互位置,以及根据追踪轨迹从待处理图像中确定与第二交互操作对应的第二交互位置;确定第一交互位置和第二交互位置之间的直线距离;根据直线距离框选目标文本区域。在本申请的一种示例性实施例中,根据直线距离框选目标文本区域,包括:根据直线距离从待处理图像中确定出参考区域;若检测到区域调整操作,则根据区域调整操作调整参考区域,并将调整结果确定为目标文本区域;其中,区域调整操作用于对参考区域进行尺寸调整和/或位置调整。在本申请的一种示例性实施例中,根据直线距离框选目标文本区域,包括:对待处理图像进行预处理;其中,预处理包括灰度处理和/或二值化处理;根据预处理结果和直线距离框选目标文本区域。在本申请的一种示例性实施例中,将音频信号转换为字符序列,包括:对音频信号进行去噪处理;将去噪处理后的音频信号转换为字符序列。在本申请的一种示例性实施例中,将音频信号转换为字符序列之后,上述方法还包括:在预设展示区域展示字符序列;若检测到字符序列调整操作,则响应于字符序列调整操作对字符序列进行调整。在本申请的一种示例性实施例中,根据框选操作从待处理图像中确定目标文本区域之后,上述方法还包括:对目标文本区域进行连通性分析,得到多个组成汉字的连通体;若检测到目标文本区域中包括与连通体对应的至少一组字符基线,则判定目标文本区域中存在待标注内容;若检测到目标文本区域中不包括至少一组字符基线,则判定目标文本区域中不存在待标注内容。在本申请的一种示例性实施例中,判定目标文本区域中存在待标注内容之后,上述方法还包括:若检测到作用于确认控件的交互操作时,判定字符序列与目标文本区域中的待标注内容相匹配。在本申请的一种示例性实施例中,根据字符序列生成对目标文本区域的文本标注结果,包括:检测样本集中是否存在字符序列;如果不存在字符序列,则根据字符序列生成对目标文本区域的文本标注结果。在本申请的一种示例性实施例中,根据字符序列生成对目标文本区域的文本标注结果之后,上述方法还包括:根据文本标注结果更新样本集,样本集用于训练文字识别模型。在本申请的一种示例性实施例中,根据文本标注结果更新样本集之后,上述方法还包括:将更新后的样本集输入文字识别模型,以使得文字识别模型输出文字识别结果,并计算样本集的标注结果与文字识别结果之间的损失函数,以及根据损失函数对文字识别模型进行参数调整。根据本申请的一方面,提供一种文本图像标注装置,包括图像展示单元、区域确定单元、音频采集单元、音频转换单元以及样本标注单元,其中:图像展示单元,用于展示包含文本区域的待处理图像;区域确定单元,用于当检测到针对待处理图像的框选操作时,根据框选操作从待处理图像中确定目标文本区域;音频采集单元,用于根据检测到的语音输入操作采集音频信号;音频转换单元,用于将音频信号转换为字符序列;样本标注单元,用于根据字符序列生成对目标文本区域的文本标注结果。在本申请的一种示例性实施例中,区域确定单元根据框选操作从待处理图像中确定目标文本区域,包括:当在待处理图像中检测到第一交互操作时,追踪交互焦点直到检测到第二交互操作;其中,框选操作包括第一交互操作和第二交互操作;根据第一交互操作和第二交互操作之间的追踪轨迹确定目标文本区域。在本申请的一种示例性实施例中,区域确定单元根据第一交互操作和第二交互操作之间的追踪轨迹确定目标文本区域,包括:根据第一交互操作从待处理图像中确定第一交互位置,以及根据追踪轨迹从待处理图像中确定与第二交互操作对应的第二交互位置;确定第一交互位置和第二交互位置之间的直线距离;根据直线距离框选目标文本区域。在本申请的一种示例性实施例中,区域确定单元根据直线距离框选目标文本区域,包括:根据直线距离从待处理图像中确定出参考区域;若检测到区域调整操作,则根据区域调整操作调整参考区域,并将调整结果确定为目标文本区域;其中,区域调整操作用于对参考区域进行尺寸调整和/或位置调整。在本申请的一种示例性实施例中,区域确定单元根据直线距离框选目标文本区域,包括:对待处理图像进行预处理;其中,预处理包括灰度处理和/或二值化处理;根据预处理结果和直线距离框选目标文本区域。在本申请的一种示例性实施例中,音频转换单元将音频信号转换为字符序列,包括:对音频信号进行去噪处理;将去噪处理后的音频信号转换为字符序列。在本申请的一种示例性实施例中,上述装置还包括字符序列展示单元和用户操作响应单元,其中:字符序列展示单元,用于在音频转换单元将音频信号转换为字符序列之后,在预设展示区域展示字符序列;用户操作响应单元,用于在检测到字符序列调整操作时,响应于字符序列调整操作对字符序列进行调整。在本文档来自技高网...

【技术保护点】
1.一种文本图像标注方法,其特征在于,包括:/n展示包含文本区域的待处理图像;/n当检测到针对所述待处理图像的框选操作时,根据所述框选操作从所述待处理图像中确定目标文本区域;/n根据检测到的语音输入操作采集音频信号,并将所述音频信号转换为字符序列;/n根据所述字符序列生成对所述目标文本区域的文本标注结果。/n

【技术特征摘要】
1.一种文本图像标注方法,其特征在于,包括:
展示包含文本区域的待处理图像;
当检测到针对所述待处理图像的框选操作时,根据所述框选操作从所述待处理图像中确定目标文本区域;
根据检测到的语音输入操作采集音频信号,并将所述音频信号转换为字符序列;
根据所述字符序列生成对所述目标文本区域的文本标注结果。


2.根据权利要求1所述的方法,其特征在于,根据所述框选操作从所述待处理图像中确定目标文本区域,包括:
当在所述待处理图像中检测到第一交互操作时,追踪交互焦点直到检测到第二交互操作;其中,所述框选操作包括所述第一交互操作和所述第二交互操作;
根据所述第一交互操作和所述第二交互操作之间的追踪轨迹确定所述目标文本区域。


3.根据权利要求2所述的方法,其特征在于,根据所述第一交互操作和所述第二交互操作之间的追踪轨迹确定所述目标文本区域,包括:
根据所述第一交互操作从所述待处理图像中确定第一交互位置,以及根据所述追踪轨迹从所述待处理图像中确定与所述第二交互操作对应的第二交互位置;
确定所述第一交互位置和所述第二交互位置之间的直线距离;
根据所述直线距离框选所述目标文本区域。


4.根据权利要求3所述的方法,其特征在于,根据所述直线距离框选所述目标文本区域,包括:
根据所述直线距离从所述待处理图像中确定出参考区域;
若检测到区域调整操作,则根据所述区域调整操作调整所述参考区域,并将调整结果确定为所述目标文本区域;
其中,所述区域调整操作用于对所述参考区域进行尺寸调整和/或位置调整。


5.根据权利要求3所述的方法,其特征在于,根据所述直线距离框选所述目标文本区域,包括:
对所述待处理图像进行预处理;其中,所述预处理包括灰度处理和/或二值化处理;
根据预处理结果和所述直线距离框选所述目标文本区域。


6.根据权利要求1所述的方法,其特征在于,将所述音频信号转换为字符序列,包括:
对所述音频信号进行去噪处理;
将去噪处理后的音频信号转换为所述字符序列。


7.根据权利要求1所述的方法,其特征在于,将所述音频信号转换为字符序列之后,所述方法还包括:
在预设展示区域展示所述字符序列;
若检测到字符序列调整操作,则响应于所述字符序列调整操作对所述字符序列进行调整。


8.根据权利要求1所述的方法,其特征在于,根据所述框选操作从...

【专利技术属性】
技术研发人员:邓茜萌李玉林
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1