一种标签标注方法和装置、计算机可读存储介质制造方法及图纸

技术编号:20655109 阅读:30 留言:0更新日期:2019-03-23 06:48
本申请公开了一种标签标注方法和装置、计算机可读存储介质,所述方法包括:检测待标注的文本中的实体是否是预先记录的实体;如果是预先记录的实体,则获取所述预先记录的实体对应的标签类型状态链,所述标签类型状态链用于存储已标注的标签类型序列;根据所述标签类型状态链,对待标注的文本中的实体自动标注标签类型。本申请通过根据预先记录的实体对应的标签类型状态链,对待标注的文本中的实体自动标注标签类型,大大提高了标签标注的效率,有效的自动标注重复实体,极大地提高了标签标注的效率,降低了标注人员的操作量,大大增加了对用户使用的友好性。

【技术实现步骤摘要】
一种标签标注方法和装置、计算机可读存储介质
本专利技术涉及自然语言处理(NaturalLanguageProcessing,NLP)
,尤其涉及一种标签标注方法和装置、计算机可读存储介质。
技术介绍
随着大数据以及人工智能(ArtificialIntelligence,AI)的普及,企业级应用中将越来越多使用自然语言处理相关的技术。当前,虽然很多大公司提供词性识别、实体识别、关系识别等模型的超文本传输协议(HyperTextTransferProtocol,HTTP)服务,但这些服务背后的自然语言处理模型绝大多数都是由互联网数据训练得到的。而互联网中的文字内容来源广泛:既有来自于专业媒体的内容,也有网民个人产生的内容。互联网文本跟企业内部文本内容相比,用词与写作风格存在较大差异。因此,自然语言处理技术想要在企业级应用中达到较好的效果,一般需要将企业内文本做标注之后,重新训练成适合于企业自身需要的自然语言处理模型。对于NLP中比较重要的任务:如词性识别、实体识别等都需要使用企业中的文本数据进行标注、然后训练模型。在实体标注中,很多标注实体会大量出现在不同的文本内容中。因此当已标注本文档来自技高网...

【技术保护点】
1.一种标签标注方法,其特征在于,包括:检测待标注的文本中的实体是否是预先记录的实体;如果是预先记录的实体,则获取所述预先记录的实体对应的标签类型状态链,所述标签类型状态链用于存储已标注的标签类型序列;根据所述标签类型状态链,对待标注的文本中的实体自动标注标签类型。

【技术特征摘要】
1.一种标签标注方法,其特征在于,包括:检测待标注的文本中的实体是否是预先记录的实体;如果是预先记录的实体,则获取所述预先记录的实体对应的标签类型状态链,所述标签类型状态链用于存储已标注的标签类型序列;根据所述标签类型状态链,对待标注的文本中的实体自动标注标签类型。2.根据权利要求1所述的方法,其特征在于,假设所述标签类型状态链的长度为M,其中,M为自然数,所述根据所述标签类型状态链,对待标注的文本中的实体自动标注标签类型,包括:统计所述预先记录的实体在所述待标注的文本中出现的次数N,其中,N为自然数;如果N小于或等于M,则使用所述标签类型状态链中的前N个标签类型依次标注所述待标注的文本中的N个所述预先记录的实体;如果N大于M,则使用所述标签类型状态链中的M个标签类型依次标注所述待标注的文本中的前M个所述预先记录的实体,使用所述标签类型状态链中的第M个标签类型标注所述待标注的文本中的第(M+1)至第N个所述预先记录的实体。3.根据权利要求1所述的方法,其特征在于,所述方法之前还包括:根据所述预先记录的实体,对所述待标注的文本进行分词。4.根据权利要求3所述的方法,其特征在于,在对所述待标注的文本进行分词时,使用正向最大匹配算法进行分词,所述正向最大匹配算法具体为:以所述预先记录的实体为分词词典,将所述待标注的文本中与所述分词词典中最长匹配的连续字符作为选出的分词。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:检测所述待标注的文本中的实体是否更新标签类型且所述更新标签类型的实体是否为所述预先记录的实体;如果所述待标注的文本中的实体更新标签类型且所述更新标签类型的实体不是预先记录的实体,则记录所述实体及其对应的标签类型状态链;如果所述待标注的文本中的实体更新标签类型且所述更新标签类型的实体是预先记录的实体,则根据所述更新的标签类型,对所述实体对应的标签类型状态链进行相应的修改。6.根据权...

【专利技术属性】
技术研发人员:徐安华张亚启欧阳佑路德龙马瑞璇
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1