【技术实现步骤摘要】
基于自然语言的语句标注方法、装置、设备及存储介质
本申请涉及人工智能领域,特别是一种基于自然语言的语句标注方法、装置、设备及存储介质。
技术介绍
序列标注问题是自然语言中最常见的问题,序列标注问题包括自然语言处理中的分词,词性标注,命名实体识别,关键词抽取,词义角色标注等等。问句句式标注是将句子中的词语与业务概念进行映射,形成句子对应的抽象表达形式,来表明话术的语义,可以对应为序列标注中的命名实体识别任务。在句式标注场景中,对应的标签类型较一般命名实体识别任务更多,且每个类别数量也有较大的差异,如何在类别多且类型不均衡的情况下对句子进行概念标注是此类序列标注任务的一个难点。常用的方式是通过对预训练后的BERT(BidirectionalEncoderepresentationsfromTransformers,来自变换器的双向编码器表征量)模型结合条件随机场层进行微调,但目前的句式标注方案中,损失函数对不同难易程度的样本都采用相同的权重,如此可能导致现有的标注模型盲目降低损失值,忽略了数量少的标签的拟合,而对于未在训 ...
【技术保护点】
1.一种基于自然语言的语句标注方法,其特征在于,包括:/n接收用户输入的目标语句序列以及对于所述目标语句序列的语句标注指令;/n响应于所述语句标注指令调用预设的句式标注模型;/n将所述目标语句序列输入所述句式标注模型,以通过所述句式标注模型对所述目标语句序列进行编码转化,将所述目标语句序列转化为目标句向量;/n基于预设的加权损失函数计算所述目标句向量在不同标注结果下的损失值,并输出与其中最低损失值对应的标注结果下的目标标注序列。/n
【技术特征摘要】
1.一种基于自然语言的语句标注方法,其特征在于,包括:
接收用户输入的目标语句序列以及对于所述目标语句序列的语句标注指令;
响应于所述语句标注指令调用预设的句式标注模型;
将所述目标语句序列输入所述句式标注模型,以通过所述句式标注模型对所述目标语句序列进行编码转化,将所述目标语句序列转化为目标句向量;
基于预设的加权损失函数计算所述目标句向量在不同标注结果下的损失值,并输出与其中最低损失值对应的标注结果下的目标标注序列。
2.根据权利要求1所述的基于自然语言的语句标注方法,其特征在于,在所述响应于所述语句标注指令调用预设的句式标注模型的步骤之前,所述方法还包括:
确认目标场景类型和初始标注模型;
获取与所述目标场景类型匹配的具有初始标注的目标训练集;
基于所述目标训练集对所述初始标注模型进行训练,将所述初始标注模型调整为所述句式标注模型。
3.根据权利要求2所述的基于自然语言的语句标注方法,其特征在于,所述基于所述目标训练集对所述初始标注模型进行训练的步骤之前,所述方法还包括:
将所述目标训练集划分为k份子训练集,k≥2,且k∈N;
通过k份子训练集分别对所述初始标注模型进行训练,生成k个子标注模型;
通过k个子标注模型分别对所述目标训练集进行标注预测,获得k个目标预测结果;
比较所述初始标注与k个目标预测结果,将同时在k个目标预测结果中出现的第一标注标签加入所述初始标注,并当所述初始标注中的第二标注标签在k个目标预测结果中均未出现时,在初始标注中删除所述第二标注标签。
4.根据权利要求1所述的基于自然语言的语句标注方法,其特征在于,在所述基于预设的加权损失函数计算所述目标句向量在不同标注结果下的损失值的步骤之前,所述方法还包括:
配置加权损失函数,并获取函数验证集;
基于函数验证集的梯度对所述加权损失函数的参数值进行更新。
5.根据权利要求1所述的基于自然语言的语句标注方法,其特征在于,在所述输出与其中最低损失值对应的标注结果下的目标标注序列的步骤之后,所述方法还包括:
调用预设的实体知识库;
判断所述目标语句序列中是否存在脱离于所述实体知识库的第一实体;
若存在,则计算出所述实体知识库中与所述第一实体匹配度最高的...
【专利技术属性】
技术研发人员:陈夏飞,
申请(专利权)人:中国平安财产保险股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。