一种标注方法及装置、电子设备、存储介质制造方法及图纸

技术编号:27109349 阅读:25 留言:0更新日期:2021-01-25 19:02
本申请提供了一种标注方法及装置、电子设备、存储介质;该方法包括:获取符合预设要求的文本信息;利用选取的与文本信息对应的标注模型,获得文本信息的自动标注结果;获取基于自动标注结果的人工标注信息;按照配置的纠错规则,识别出人工标注信息中包含的错误标注字段;显示自动标注结果和人工标注信息,并标记出错误标注字段。本申请上述实施例提供的技术方案,降低了人工标注的工作量,提高了标注效率,提高了标注的准确性。提高了标注的准确性。提高了标注的准确性。

【技术实现步骤摘要】
一种标注方法及装置、电子设备、存储介质


[0001]本申请涉及文本处理
,特别涉及一种标注方法及装置、电子设备、计算机可读存储介质。

技术介绍

[0002]自然语言处理(Natural Language Processing,NLP)技术可以高效地对文本数据进行系统化分析、理解与信息提取,使得计算机能够理解自然语言以及生成自然语言,进而实现人与计算机之间采用自然语言进行有效交互(例如消息自动回复、语音助手等应用程序的使用)。其中,文本标注技术为自然语言处理的产业化应用提供了基础。
[0003]现有技术中做长文本分析时,需要耗费大量人力,一般分为标注员,质检员,抽检员,管理员四个角色进行管控,多角色层层管控,导致标注效率低,人力成本高,而标注准确性仍有待提高。

技术实现思路

[0004]本申请实施例提供了一种标注方法,用以提高标注效率,降低人力成本,提高标注准确性。
[0005]本申请实施例提供的了一种标注方法,包括:
[0006]获取符合预设要求的文本信息;
[0007]利用选取的与所述文本信息对应的标注模型,获得所述文本信息的自动标注结果;
[0008]获取基于所述自动标注结果的人工标注信息;
[0009]按照配置的纠错规则,识别出所述人工标注信息中包含的错误标注字段;
[0010]显示所述自动标注结果和人工标注信息,并标记出所述错误标注字段。
[0011]在一实施例中,所述获取符合预设要求的文本信息,包括:
[0012]拦截超出预设要求的信息,获得所述符合预设要求的文本信息;
[0013]显示所述预设要求。
[0014]在一实施例中,在所述利用选取的与所述文本信息对应的标注模型,获得所述文本信息的自动标注结果之后,所述方法包括:
[0015]按照配置的纠错规则,识别出所述自动标注结果中包含的错误标注字段;
[0016]显示所述自动标注结果,并标记出所述错误标注字段。
[0017]在一实施例中,所述按照配置的纠错规则,识别出所述自动标注结果中包含的错误标注字段,包括:
[0018]针对所述自动标注结果中的目标字段,判断所述目标字段是否以指定字符开始或结尾;若是,确定所述目标字段为错误标注字段。
[0019]在一实施例中,所述按照配置的纠错规则,识别出所述人工标注信息中包含的错误标注字段,包括:
[0020]针对所述人工标注信息中的目标字段,判断所述目标字段是否以指定字符开始或结尾;若是,确定所述目标字段为错误标注字段。
[0021]在一实施例中,在所述标记出所述错误标注字段之后,所述方法还包括:
[0022]获取不同用户对所述错误标注字段的判别结果;
[0023]根据所述判别结果,统计所述错误标注字段判别为标注正确的正确次数,若所述正确次数大于第一阈值,删除对所述错误标注字段的标记。
[0024]在一实施例中,在获取不同用户对所述错误标注字段的判别结果之后,所述方法还包括:
[0025]获取不同用户对所述错误标注字段的判别结果;
[0026]根据所述判别结果,统计所述错误标注字段判别为标注错误的错误次数,若所述错误次数大于第二阈值,自动修改所述错误标注字段的标注结果。
[0027]在一实施例中,在所述标记出所述错误标注字段之后,所述方法还包括:
[0028]将所述文本信息的最终标注结果作为样本数据,优化所述文本信息对应的标注模型。
[0029]本申请实施例提供了一种标注装置,包括:
[0030]文本获取模块,用于获取符合预设要求的文本信息;
[0031]自动标注模块,用于利用选取的与所述文本信息对应的标注模型,获得所述文本信息的自动标注结果;
[0032]人工标注模块,用于获取基于所述自动标注结果的人工标注信息;
[0033]字段纠错模块,用于按照配置的纠错规则,识别出所述人工标注信息中包含的错误标注字段;
[0034]错误标记模块,用于显示所述自动标注结果和人工标注信息,并标记出所述错误标注字段。
[0035]本申请实施例提供了一种电子设备,所述电子设备包括:
[0036]处理器;
[0037]用于存储处理器可执行指令的存储器;
[0038]其中,所述处理器被配置为执行上述标注方法。
[0039]本申请实施例提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述标注方法。
[0040]本申请上述实施例提供的技术方案,通过与文本信息对应的标注模型自动对文本信息进行标注,降低了人工标注的工作量,提高了标注效率,对于人工标注结果,可以基于纠错规则自动识别错误标注字段,并标记出错误标注字段,从而提高标注的准确性,可以具有辅助人工标注的作用。
附图说明
[0041]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。
[0042]图1为本申请实施例提供的标注方法的应用场景示意图;
[0043]图2为本申请实施例提供的电子设备示意图;
[0044]图3为本申请实施例提供的标注方法的流程示意图;
[0045]图4为本申请另一实施例提供的标注方法的流程示意图;
[0046]图5为本申请又一实施例提供的标注方法的流程示意图;
[0047]图6为本申请实施例提供的标注装置的框图。
具体实施方式
[0048]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
[0049]相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0050]图1为本申请实施例提供的标注方法的应用场景示意图。如图1所示,该应用场景包括服务端110以及多个客户端120。服务端110与客户端120之间通过有线或无线网络通信。服务端110可以是服务器、服务器集群以及云计算中心。客户端120可以是智能手机、平板电脑、笔记本电脑或台式电脑。服务端110可以获取符合预设要求的文本信息;利用选取的与所述文本信息对应的标注模型,获得所述文本信息的自动标注结果。
[0051]服务端110可以将自动标注结果推送到客户端120进行显示,并接收客户端120返回的用户基于所述自动标注结果的人工标注信息。服务端110可以按照配置的纠错规则,识别出所述人工标注信息中包含的错误标注字段,并将错误标注字段返回客户端。客户端120可以显示自动标注结果和人工标注信息,并标记出所述错误标注字段。
[0052]由此,人工标注仅是起到辅助作用,基于标注模型和纠错规则,可以自动进行文本标注并识别出错误标注字段,提高了标注效率,降低了人力成本,提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标注方法,其特征在于,包括:获取符合预设要求的文本信息;利用选取的与所述文本信息对应的标注模型,获得所述文本信息的自动标注结果;获取基于所述自动标注结果的人工标注信息;按照配置的纠错规则,识别出所述人工标注信息中包含的错误标注字段;显示所述自动标注结果和人工标注信息,并标记出所述错误标注字段。2.根据权利要求1所述的方法,其特征在于,所述获取符合预设要求的文本信息,包括:拦截超出预设要求的信息,获得所述符合预设要求的文本信息;显示所述预设要求。3.根据权利要求1所述的方法,其特征在于,在所述利用选取的与所述文本信息对应的标注模型,获得所述文本信息的自动标注结果之后,所述方法包括:按照配置的纠错规则,识别出所述自动标注结果中包含的错误标注字段;显示所述自动标注结果,并标记出所述错误标注字段。4.根据权利要求3所述的方法,其特征在于,所述按照配置的纠错规则,识别出所述自动标注结果中包含的错误标注字段,包括:针对所述自动标注结果中的目标字段,判断所述目标字段是否以指定字符开始或结尾;若是,确定所述目标字段为错误标注字段。5.根据权利要求1所述的方法,其特征在于,所述按照配置的纠错规则,识别出所述人工标注信息中包含的错误标注字段,包括:针对所述人工标注信息中的目标字段,判断所述目标字段是否以指定字符开始或结尾;若是,确定所述目标字段为错误标注字段。6.根据权利要求1所述的方法,其特征在于,在所述标记出所述错误标注字段之后,所述方法还包括:获取不同用户对所述错误标注字段的判...

【专利技术属性】
技术研发人员:简仁贤杨龙陈磊于芳
申请(专利权)人:竹间智能科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1