System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及自然语言处理领域,尤其涉及一种文本标注方法、装置和存储介质。
技术介绍
1、在自然语言处理领域中,基于大规模的带标注数据进行模型的训练得到长足的发展与进步。当我们在使用搜索引擎、语音助手、检索系统等时,都涉及到了许多不同类型的自然语言处理模型,在训练模型的时候,我们需要大量的标注数据,有效的标注数据的使用能够大大提高标注的效率和训练得到的模型的准确率。
2、当前的标注方法无法提高标注过程中的效率,加速标注的过程。因此,亟需一种新型的文本标注方法以实现高效快速产出高质量的语料。
技术实现思路
1、有鉴于此,本公开提出了一种文本标注方法、装置和存储介质。
2、根据本公开的一方面,提供了一种文本标注方法。该方法包括:获取待标注文本;利用在线模型对至少一个第一待标注文本进行实体标注,得到第一标注数据,第一标注数据用于训练离线模型;在离线模型满足第一预设条件的情况下,利用离线模型对第二待标注文本进行实体标注,得到第二标注数据,其中,第二待标注文本与第一待标注文本不同。
3、在一种可能的实现方式中,该方法包括:在第一标注数据的数据量达到预设阈值的情况下,利用第一标注数据对离线模型进行训练。
4、在一种可能的实现方式中,在线模型包括第一在线模型和第二在线模型,利用在线模型对至少一个第一待标注文本进行实体标注,得到第一标注数据,包括:基于预定词库,利用第一在线模型对第一待标注文本中与预定词库关联的实体进行标注,得到中间标注文本;利用第二在线
5、在一种可能的实现方式中,第二在线模型为训练后的第二在线模型,该方法还包括:响应于第二在线模型不满足第二预设条件,获取训练标注数据;利用训练标注数据,对第二在线模型进行在线训练;响应于第二在线模型满足第二预设条件,得到训练后的第二在线模型。
6、在一种可能的实现方式中,获取训练标注数据,包括:基于预定词库,利用第一在线模型对训练初始数据进行实体标注,得到第三标注数据;响应于针对第三标注数据的第一标注操作,基于第一标注操作更新第三标注数据,得到训练标注数据。
7、在一种可能的实现方式中,该方法还包括:利用第一标注数据和第二标注数据,对离线模型进行更新训练。
8、在一种可能的实现方式中,利用在线模型对至少一个第一待标注文本进行实体标注,得到第一标注数据,包括:利用在线模型对至少一个第一待标注文本进行实体标注,得到第四标注数据;响应于针对第四标注数据的第二标注操作,基于第二标注操作更新第四标注数据,得到第一标注数据。
9、根据本申请实施例,通过获取待标注文本,首先利用在线模型对第一待标注文本中的进行实体标注,可以实现在没有大量训练数据的积累的情况下即可利用在线模型开始对文本进行标注,提高了文本标注时的效率。同时,通过使离线模型在满足预设条件的情况下,对与第一待标注文本不同的第二待标注文本进行实体标注,结合了离线、在线模型的切换过程,可以不间断地处理待标注文本,且在满足标注速度要求的情况下进一步提升文本的标注质量,从而可以高效快速产出高质量的语料。
10、根据本公开的另一方面,提供了一种文本标注装置。该装置包括:第一获取模块,用于获取待标注文本;第一实体标注模块,用于利用在线模型对至少一个第一待标注文本进行实体标注,得到第一标注数据,第一标注数据用于训练离线模型;第二实体标注模块,用于在离线模型满足第一预设条件的情况下,利用离线模型对第二待标注文本进行实体标注,得到第二标注数据,其中,第二待标注文本与第一待标注文本不同。
11、在一种可能的实现方式中,该装置还包括:第一训练模块,用于在第一标注数据的数据量达到预设阈值的情况下,利用第一标注数据对离线模型进行训练。
12、在一种可能的实现方式中,在线模型包括第一在线模型和第二在线模型,第一实体标注模块,用于:基于预定词库,利用第一在线模型对第一待标注文本中与预定词库关联的实体进行标注,得到中间标注文本;利用第二在线模型对中间标注文本进行实体标注,得到第一标注数据。
13、在一种可能的实现方式中,第二在线模型为训练后的第二在线模型,该装置还包括:第二获取模块,用于响应于第二在线模型不满足第二预设条件,获取训练标注数据;第二训练模块,用于利用训练标注数据,对第二在线模型进行在线训练;确定模块,用于响应于第二在线模型满足第二预设条件,得到训练后的第二在线模型。
14、在一种可能的实现方式中,第二获取模块,用于:基于预定词库,利用第一在线模型对训练初始数据进行实体标注,得到第三标注数据;响应于针对第三标注数据的第一标注操作,基于第一标注操作更新第三标注数据,得到训练标注数据。
15、在一种可能的实现方式中,该装置还包括:第三训练模块,用于利用第一标注数据和第二标注数据,对离线模型进行更新训练。
16、在一种可能的实现方式中,第一实体标注模块,用于:利用在线模型对至少一个第一待标注文本进行实体标注,得到第四标注数据;响应于针对第四标注数据的第二标注操作,基于第二标注操作更新第四标注数据,得到第一标注数据。
17、根据本公开的另一方面,提供了一种文本标注装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为在执行所述存储器存储的指令时,实现上述方法。
18、根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。
19、根据本公开的另一方面,提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行上述方法。
20、根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
本文档来自技高网...【技术保护点】
1.一种文本标注方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法包括:
3.根据权利要求1所述的方法,其特征在于,所述在线模型包括第一在线模型和第二在线模型,所述利用在线模型对至少一个第一待标注文本进行实体标注,得到第一标注数据,包括:
4.根据权利要求3所述的方法,其特征在于,所述第二在线模型为训练后的第二在线模型,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述获取训练标注数据,包括:
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
7.根据权利要求1所述的方法,其特征在于,所述利用在线模型对至少一个第一待标注文本进行实体标注,得到第一标注数据,包括:
8.一种文本标注装置,其特征在于,所述装置包括:
9.一种文本标注装置,其特征在于,包括:
10.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。
【技术特征摘要】
1.一种文本标注方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法包括:
3.根据权利要求1所述的方法,其特征在于,所述在线模型包括第一在线模型和第二在线模型,所述利用在线模型对至少一个第一待标注文本进行实体标注,得到第一标注数据,包括:
4.根据权利要求3所述的方法,其特征在于,所述第二在线模型为训练后的第二在线模型,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述获取训练标注数据,包...
【专利技术属性】
技术研发人员:请求不公布姓名,请求不公布姓名,请求不公布姓名,
申请(专利权)人:摩尔线程智能科技北京有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。