【技术实现步骤摘要】
图文数据标注方法及装置
[0001]本专利技术涉及图像标注和人工智能
,尤其涉及图文数据标注方法及装置。
技术介绍
[0002]本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]在人工智能服务研发周期中,训练数据的产生效率从很大程度上影响了整个人工智能服务的研发效率。其中对原始数据进行标注是研发周期中不可或缺的环节,也是产生训练数据的重要手段。随着技术的发展,数据标注衍生出多种多样的场景,比较典型的就是图像内容的抽取以及文字内容的识别。但在传统技术中,若想对图片上的文字进行内容的识别,则需要通过OCR(光学字符识别)和NER(命名实体识别)两个场景实现。
[0004]现有数据标注的方法中,需要通过图像标注任务,将图像数据中带有文字的部分以打矩形框的形式抽取出来,然后将抽取出的结果导出(一般是导出到json或xml文件中);接下来需要数据处理人员将导出的结果文件中文字内容部分进行提取,形成文本数据。再通过文本标注任务,将文本数据中需要标记的内容打上实体标签,然后将结果导出,最终得到实体标签的结果。此方法存在以下缺点:
[0005](1)为了得到文本的实体标注结果,需要通过两个标注任务才能完成,标注的行为也会产生两次,这样会产生额外的标注时间成本和费用成本;
[0006](2)在两个标注任务的衔接过程中,需要专业的数据处理人员对标注结果文件进行解析和提取,会产生一定的人力和时间成本;
[0007](3 ...
【技术保护点】
【技术特征摘要】
1.一种图文数据标注方法,其特征在于,包括:获取与目标图文数据的数据类型相关联的数据标签列表;基于从所述数据标签列表中选取的目标数据标签,监听在目标图文数据中对应目标数据标签的划选文字操作;所述划选文字操作包括:以预设置划选工具,对目标图文数据中不同位置进行连续划选的操作;根据所述划选文字操作,确定划选文字操作所划选出的至少一个区域;确定每一区域所对应的位置信息和文字内容;将所述每一区域所对应的位置信息和文字内容作为实体信息,并与目标数据标签进行关联,得到目标图文数据的实体标注。2.如权利要求1所述的方法,其特征在于,还包括:基于历史图文数据数据类型、和对应不同历史图文数据的数据标签,建立不同图文数据数据类型和关联的数据标签列表之间的关联关系;获取与目标图文数据的数据类型相关联的数据标签列表,包括:根据获取的数据标注任务,确定数据标注任务中目标图文数据的目标数据类型;将目标数据类型与所述关联关系进行匹配,获取与目标图文数据的数据类型相关联的数据标签列表。3.如权利要求1所述的方法,其特征在于,监听在目标图文数据中对应目标数据标签的划选文字操作,包括:在将目标图文数据放置于图像标注画布后,监听对该图像标注画布上目标图文数据中对应目标数据标签的划选文字操作。4.如权利要求1所述的方法,其特征在于,监听在目标图文数据中对应目标数据标签的划选文字操作,包括:监听鼠标控制划选工具进行划选的起始位置和结束位置;根据所述划选文字操作,确定划选文字操作所划选出的至少一个区域,包括:根据所述划选文字操作,确定从所述起始位置开始划选至所述结束位置鼠标控制划选工具经停的区域。5.如权利要求1所述的方法,其特征在于,监听在目标图文数据中对应目标数据标签的划选文字操作,包括:在监听到键盘指定按键的启动行为后,持续监听鼠标控制划选工具进行划选的多个划选文字操作,直到监听到该键盘指定按键的结束行为;根据所述划选文字操作,确定划选文字操作所划选出的至少一个区域,包括:根据持续监听的鼠标控制划选工具进行划选的多个划选文字操作,确定划选文字操作所划选出的多个区域。6.如权利要求1所述的方法,其特征在于,确定每一区域所对应的位置信息和文字内容,包括:基于文字识别技术,调用OCR模型服务接口,确定每一区域所对应的文字内容;将每一区域在所述目标图文数据中的坐标数组,作为区域所对应的位置信息。7.如权利要求1所述的方法,其特征在于,所述目标数据标签对应的初始实体信息为空;
将所述每一区域所对应的位置信息和文字内容作为实体信息,并与目标数据标签进行关联,得到目标图文数据的实体标注,包括:基于文字回调函数,以所述每一区域所对应的位置信息和文字内容,对目标数据标签的实体信息,进行重新赋值关联,得到目标图文数据的实体标注。8.如权利要求1所述的方法,其特征在于,还包括:记录划选文字操作所划选出的每一区域的图像信息;将所述每一区域所对应的位置信息和文字内容作为实体信息,并与目标数据标签进行关联,包括:将所述每一区域所对应的图像信息、位置信息和文字内容作为实体信息,并与目标数据标签进行关联。9.如权利要求8所述的方法,其特征在于,还包括:以不同的目标数据标签为基础,对每一目标数据标签关联的实体信息,进行图文数据的标注导出操作。10.如权利要求1所述的方法,其特征在于,还包括:在监听在目标图文数据中对应目标数据标签的划选文字操作后,建立对应目标数据标签的标签展示窗口;将目标数据标签和对应的图标、所述每一区域所对应的位置信息和文字内容,在该标签展示窗口中进行展示。11.如权利要求1所述的方法,其特征在于,还包括:基于输入的划选工具尺寸和划选工具展示样式,生成划选工具和对应的划选工具展示界面;所述划选工具展示界面用于在进行划选文字操作时,于对应所述区域预设距离的位置,对划选工具进行预览展示。12.一种图文数据标注装置,其特征在于,包括:数据标签列表获取模块,用于获取与目标图文数据的数据类型相关联的数据标签列表;监听模块,用于基于从所述数据标签列表中选取的目标数据...
【专利技术属性】
技术研发人员:贺潇铮,岳永强,王江洪,史亚萌,丁昌茂,万光明,冯瑜,胡莺夕,
申请(专利权)人:建信金融科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。