【技术实现步骤摘要】
基于人工智能的自然语言标注方法及相关设备
本专利技术涉及人工智能领域,尤其涉及一种基于人工智能的自然语言标注方法及相关设备。
技术介绍
随着深度学习技术的蓬勃发展,自然语言处理中也有其深入的应用。通过训练好的模型可以对自然语言进行分词,理解,甚至情感分类,理解语句的意图。而模型的训练需要大量的标注好的语句样本。目前主要采用两种类型的深度学习模型进行语义理解。一种是有监督学习的语义理解,一种是结合半监督学习、规则编写和预训练词向量结合在一起的语义理解。然而无论是前者还是后者,都需要大量的已被标注的语句。在意图识别方面,标注层级越高,内容越细致,越容易被模型识别自然语言的意图。如“今天的天气怎么样”,仅标注名词、形容词,模型无法识别出该文本的意图。如果“今天的”标注为“时间背景”,“天气”标注为“气候”,而“怎么样”标注为“疑问”,则模型确定这句话的含义是“在这个时间背景下气候如何”,从而调取预置的与咨询气候相对应的模块或网页。目前在训练语义识别模型时采用的训练语料常常采用人工标注的方式。但在某些领域,由于技术的发展,新 ...
【技术保护点】
1.一种基于人工智能的自然语言标注方法,其特征在于,所述基于人工智能的自然语言标注方法包括:/n获取待标注的自然语言文本;/n通过预先训练好的序列标注模型,对所述自然语言文本进行语义粗粒度序列标注,得到标注序列,其中,所述标注序列包含所述自然语言文本中的各个字对应的角色类型,所述角色类型包括疑问词类型、动作类型、故障类型、背景信息类型和槽位类型;/n根据所述标注序列,确定所述自然语言文本中的目标词,并将所述目标词中各个字对应的角色类型作为所述目标词的目标角色类型;/n获取所述目标角色类型对应的预置模板词,并计算所述目标词与所述模板词之间的相似度值,其中,所述模板词预先标注有 ...
【技术特征摘要】
1.一种基于人工智能的自然语言标注方法,其特征在于,所述基于人工智能的自然语言标注方法包括:
获取待标注的自然语言文本;
通过预先训练好的序列标注模型,对所述自然语言文本进行语义粗粒度序列标注,得到标注序列,其中,所述标注序列包含所述自然语言文本中的各个字对应的角色类型,所述角色类型包括疑问词类型、动作类型、故障类型、背景信息类型和槽位类型;
根据所述标注序列,确定所述自然语言文本中的目标词,并将所述目标词中各个字对应的角色类型作为所述目标词的目标角色类型;
获取所述目标角色类型对应的预置模板词,并计算所述目标词与所述模板词之间的相似度值,其中,所述模板词预先标注有对应的子类别;
根据所述相似度值和预置子类别判定规则,确定所述目标词对应的子类别为目标子类别,并根据所述目标子类别,对所述自然语言文本进行语义细粒度序列标注,得到所述自然语言文本对应的标注文本。
2.根据权利要求1所述的基于人工智能的自然语言标注方法,其特征在于,在所述通过预先训练好的序列标注模型,对所述自然语言文本进行语义粗粒度序列标注,得到标注序列之前,还包括:
获取自然语言文本语料,并将所述自然语言文本语料作为训练语料;
对所述训练语料进行序列标注,得到序列标注信息,其中序列标注信息包括所述训练语料中的每个字对应的角色类型;
将所述训练语料输入预置自然语言处理模型,并通过所述自然语言处理模型对所述训练语料中每个字进行序列标注,得到预测标注结果;
基于预置损失函数,计算所述预测标注结果和所述标注信息之间的损失值;
将所述损失值反向输入所述自然语言处理模型,并根据所述损失值对所述自然语言处理模型的参数进行调整,直至所述自然语言处理模型收敛,得到所述序列标注模型。
3.根据权利要求1所述的基于人工智能的自然语言标注方法,其特征在于,在所述获取所述目标角色类型对应的预置模板词,并计算所述目标词与所述模板词之间的相似度值之前,还包括:
获取预置自然语言模板句,并通过所述序列标注模型对所述自然语言模板句进行粗粒度序列标注,得到所述自然语言模板句中的模板词和对应的角色类型;
对各个所述模板词进行向量化处理,得到对应的模板词向量;
基于预置聚类算法,对同一所述角色类型的模板词向量进行聚类,得到聚类结果;
根据所述聚类结果,将同一所述角色类型对应模板词标注为多个不同的子类别。
4.根据权利要求3所述的基于人工智能的自然语言标注方法,其特征在于,所述聚类算法为标签传播算法,所述基于预置聚类算法,对同一所述角色类型的模板词向量进行聚类,得到聚类结果包括:
对同一所述角色类型的模板词向量进行随机排序,得到排序序列;
对所述随机排序序列中各个模板词向量进行初始标记,得到对应的标签;
基于所述标签传播算法,对所述排序序列中的模板词向量依序进行标签传播,直至达到所述模板词向量的标签不再变化;
将同一标签的模板词向量作为同一类别,得到聚类结果。
5.根据权利要求4所述的基于人工智能的自然语言标注方法,其特征在于,所述获取所述目标角色类型对应的预置模板词,并计算所述目标词与所述模...
【专利技术属性】
技术研发人员:勾震,马丹,曾增烽,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。