【技术实现步骤摘要】
文本标注方法、装置及设备
[0001]本说明书属于人工智能
,尤其涉及一种文本标注方法、装置及设备。
技术介绍
[0002]随着计算机互联网技术的发展,使用计算机技术对自然语言进行处理,以方便人们的工作生活越来越重要,如:智能对话机器人等,属于自然语言智能化的一种实现方式。而文本标注可以实现对自然语言文本中重要的信息进行标记,以方便用户查看、理解,或者可以利用标注的文本为后续人工智能对话提供数据基础。
[0003]目前,文本标注大多采用人工手工标注的方式,标注员在开发好的标注系统内进行点击,选择等操作,这个过程需要专门的专家专门花费时间和注意力进行标注,标注效率低,标注成本非常高。并且,这种方式的文本标注具有一定的主观性,每个标注员可能根据自己的认识对同一段文本标注不同粒度或方向的标签,影响文本标注的效率和准确性。
[0004]针对上述问题,目前尚未提出有效的解决方案。
技术实现思路
[0005]本说明书实施例的目的在于提供一种文本标注方法、装置及设备,实现了文本的自动化、无感化标注,提 ...
【技术保护点】
【技术特征摘要】
1.一种文本标注方法,其特征在于,所述方法包括:将待标注文本转换为待标注图片;利用眼球追踪技术对获得业务员对所述待标注图片的关注图像信息,所述关注图像信息包括所述业务员对所述待标注图片的关注区域和关注频率;根据所述待标注图片中的像素点和所述待标注文本的字符之间的对应关系,将所述关注图像信息转换为关注字符信息;基于光学字符识别技术对所述关注字符信息进行筛选,获得所述待标注文本的标注信息。2.如权利要求1所述的方法,其特征在于,所述利用眼球追踪技术对获得业务员对所述待标注图片的关注图像信息包括:利用眼球追踪技术获取业务员对所述待标注图片的视线停留信息;根据所述视线停留信息,获取业务员对所述待标注图片中各像素点的关注次数;根据所述待标注图片构建待标注图像矩阵,所述待标注图像矩阵中的元素为所述待标注图片的像素点;将所述待标注图像矩阵中各元素的数值设置为所述待标注图片中各元素的关注次数,将确定出元素数值的待标注图像矩阵作为所述关注图像信息。3.如权利要求2所述的方法,其特征在于,所述根据所述待标注图片中的像素点和所述待标注文本的字符之间的对应关系,将所述关注图像信息转换为关注字符信息,包括:根据所述待标注文本构建待标注文本矩阵,其中,所述待标注文本矩阵中的元素为所述待标注文本的字符;根据所述待标注文本矩阵中的字符与所述待标注图片中像素点之间的对应关系,将所述待标注图像矩阵中各个元素的数值转换为所述待标注文本矩阵中个元素的数值;将确定出元素数值的待标文本矩阵作为所述关注字符信息。4.如权利要求1所述的方法,其特征在于,所述基于光学字符识别技术对所述关注字符信息进行筛选,获得所述待标注文本的标注信息,包括:基于光学字符识别技术构建光学字符识别模型;基于眼球追踪技术对历史待标注样本进行标注的历史关注图像信息,并将所述历史关注图像信息转换为对应的历史关注字符信息;获取业务员对所述历史待标注样本进行标注的历史样本确认标注信息;将所述历史关注字符信息作为所述光学字符识别模型的模型训练输入数据,将所述历史样本确认标注信息作为所述光学字符识别模型的模型训练标签数据,对所述光学字符识别模型进行模型训练,直至所述光学字符识别模型符合预设要求;利用训练好的光学字符识别模型对所述关注字符信息进行筛选,获得所述待标注文本的标注信息。5.如权利要求4所述的方法,其特征在于,所述基于光学字符识别技术对所述关注字符信息进行筛选,获得所述待标注文本的标注信息,包括:获取业务员对所述待标注文本对应的指定数量的待标注图片进行文本标注,获得的所述指定数量的待标注图片的确认标注信息;将所述指定数量的待标注图片的关注字符信息作为所述光学字符识别模型的优化训
练输入数据,将所述指定数量的待标注图片的确认标注信息作为所述光学字符识别模型的优化训练标签数据,对所述光学字符识别模型进行优化,获得优化后的光学字符识别模型;利用优化后的光学字符识别模型对所述待标注文本的关注字符信息进行标注,获得所述待标注文本的标注信息。6.如权利要求1所述的方法,其特征在于,所述基于光学字符识别技术对所述关注字符信息进行筛选,获得所述待标注文本的标注信息,包括:基于光学字符识别技术对所述关注字符信息进行筛选,获得所述待标注文本对应的标注字符矩阵,所述标注字符矩阵中的元素数值表示所述待标注文本中各个字符的标注频次;根据所述标注字符矩阵确定所述待标注文本中重点标注区域的二维图片坐标;根据所述待标注文本和所述待标注图片的对应关系,将所述重点标注区域的二维图片坐标转换为一维字符索引;基于所述重点标注区域的一维字符索引获得所述待标注文本的标注信息。7.如权利要求6所述的方法,其特征在于,采用下述公式确定所述重点标注区域的二维图片坐标:I1={(x
1_1
:x
1_2
,y
1_1
:y
1_2
),(x
2_...
【专利技术属性】
技术研发人员:冯歆然,刘华杰,王雅欣,罗杰文,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。