【技术实现步骤摘要】
数据标注方法、装置、电子设备及计算机可读存储介质
[0001]本公开涉及人工智能
,特别涉及计算机视觉和自然语言处理等领域的数据标注方法、装置、电子设备及计算机可读存储介质。
技术介绍
[0002]富文档内包含了丰富的数据,如可包括文本内容、表格内容和图片内容等,这些丰富的数据正是人工智能算法所需的。
[0003]但如何对富文档中的数据进行标注,以便人工智能算法进行学习等,目前还没有一种较好的实现方式。
技术实现思路
[0004]本公开提供了数据标注方法、装置、电子设备及计算机可读存储介质。
[0005]一种数据标注方法,包括:
[0006]对待处理的富文档进行解析,根据解析结果生成所述富文档中包括的内容类型对应的标注界面;
[0007]根据用户针对所述标注界面执行的操作生成键值对,将得到的键值对作为数据标注结果。
[0008]一种数据标注装置,包括:解析模块以及标注模块;
[0009]所述解析模块,用于对待处理的富文档进行解析,根据解析结果生成所述富文档 ...
【技术保护点】
【技术特征摘要】
1.一种数据标注方法,包括:对待处理的富文档进行解析,根据解析结果生成所述富文档中包括的内容类型对应的标注界面;根据用户针对所述标注界面执行的操作生成键值对,将得到的键值对作为数据标注结果。2.根据权利要求1所述的方法,其中,所述富文档中包括的内容类型包括以下之一或任意组合:文本内容、表格内容和图片内容;所述生成所述富文档中包括的内容类型对应的标注界面包括:当所述富文档中包括文本内容时,生成对应的文本标注界面,所述文本标注界面中包括所述文本内容;当所述富文档中包括表格内容时,生成对应的表格标注界面,所述表格标注界面中包括所述表格内容;当所述富文档中包括图片内容时,生成对应的图片标注界面,所述图片标注界面中包括所述图片内容。3.根据权利要求2所述的方法,其中,当所述标注界面为文本标注界面时,所述根据用户针对所述标注界面执行的操作生成键值对包括以下之一或全部:针对所述文本标注界面中所展示的所述文本内容,获取用户从中选定的作为键及对应的值的内容,根据获取到的内容生成键值对;针对所述文本标注界面中所展示的所述文本内容,获取用户从中选定的作为值的内容,并确定出获取到的值对应的键,根据确定出的键及获取到的值生成键值对。4.根据权利要求2所述的方法,其中,当所述标注界面为表格标注界面时,所述根据用户针对所述标注界面执行的操作生成键值对包括:针对所述表格标注界面上所展示的所述表格内容中的各单元格,分别获取所述用户设定的类别,所述类别包括键和值,并获取用户设定的类别为键的单元格对应的值所在的方向信息,根据用户所作设定生成键值对。5.根据权利要求2所述的方法,其中,当所述标注界面为图片标注界面时,所述根据用户针对所述标注界面执行的操作生成键值对包括:针对所述图片标注界面中所展示的所述图片内容中的文字信息,获取用户从中选定的作为键及对应的值的内容,根据获取到的内容生成键值对。6.根据权利要求1~5中任一项所述的方法,还包括:将得到的各键值对分别按照预定格式进行存储。7.根据权利要求6所述的方法,还包括:针对任一键值对,分别存储以下信息之一或全部:位置信息,方向信息;其中,所述位置信息为所述键值对中的键和/或值在所述富文档中的位置信息,所述方向信息为所述键值对中的值相对于键的方向信息。
8.一种数据标注装置,包括:解析模块以及标注模块;所述解析模块,用于对待处理的富文档进行解析,根据解析结果生成所述富文档中包括的内容类型对应的标注界面;所述标注模块,用于根据用户针对所述标注界面执行的操作生成键值对,将...
【专利技术属性】
技术研发人员:李晨辉,胡腾,陈永锋,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。