语义分类方法及装置、存储介质及电子设备制造方法及图纸

技术编号:29584596 阅读:16 留言:0更新日期:2021-08-06 19:43
本发明专利技术提供一种语义分类方法及装置、存储介质及电子设备,该方法包括:当接收到对待分类语句进行语义分类的指令时,将待分类语句输入预先建立的语义分类模型中,经语义分类模型处理后,获得待分类语句对应的句向量;确定当前的语义类型集合,语义类型集合中包括多个预设语义类型;获取每个预设语义类型对应的句向量;确定每个预设语义类型对应的相似性参数;确定目标语义类型,所述目标语义类型为所述语义类型集合中,对应的相似性参数表征的相似程度最高的预设语义类型,将该目标语义类型作为待分类语句对应的语义类型。应用本发明专利技术的方法,基于预设语义类型的句向量进行语义分类,在需增加语义类型时,无需对模型进行重新训练,减少了工作量。

【技术实现步骤摘要】
语义分类方法及装置、存储介质及电子设备
本专利技术涉及自然语言处理
,特别是涉及一种语义分类方法及装置、存储介质及电子设备。
技术介绍
在人工智能领域,自然语言处理技术是实现人与计算机之间基于日常语言进行有效通信的关键技术之一。在自然语言处理过程中,常常需识别语言所表现的意义,通常是根据实际的处理需求设定各个语义类型,对语句进行语义分类,以获得语句所表现的语言意义。例如需获取语句所呈现的情感含义,可将语句的语言情感含义分为开心、愤怒或一般等语义类型。目前对语句进行语义分类的方法,通常是通过已有的样本数据训练一个语义分类模型,将待分类的语句输入该语义分类模型,获得模型输出的分类结果。而在自然语言处理技术的实际应用过程中,语句的语义类型会随着语言处理需求而变化。例如计算机需对呈现失望情感的语句进行响应,那么在对语句进行语义分类时,则需新增失望这一语义类型。基于现有的语义分类方法,需要增加新的语义类型以对语句进行分类时,需要标注大量数据,重新训练语义分类模型,工作量较大,成本较高。
技术实现思路
有鉴于此,本专利技术实施例提供了一种语义分类方法,以解决在新增语义类型时,需对语义分类模型进行重新训练,工作量较大,成本较高的问题。本专利技术实施例还提供了一种语义分类装置,用以保证上述方法实际中的实现及应用。为实现上述目的,本专利技术实施例提供如下技术方案:一种语义分类方法,包括:当接收到对待分类语句进行语义分类的指令时,将所述待分类语句输入预先建立的语义分类模型中,经所述语义分类模型处理后,获得所述待分类语句对应的句向量;确定当前的语义类型集合,所述语义类型集合中包括多个预设语义类型;获取所述语义类型集合中每个预设语义类型所对应的句向量,所述语义类型集合中每个所述预设语义类型对应的句向量为,基于该预设语义类型对应的验证样本集和所述语义分类模型所确定的向量;确定所述语义类型集合中每个所述预设语义类型对应的相似性参数,每个所述预设语义类型对应的相似性参数表征,该预设语义类型对应的句向量与所述待分类语句对应的句向量的相似程度;确定目标语义类型,所述目标语义类型为所述语义类型集合中,对应的相似性参数表征的相似程度最高的预设语义类型;将所述目标语义类型作为所述待分类语句对应的语义类型。上述的方法,可选的,所述语义分类模型的建立过程,包括:确定各个训练语义类型;确定每个所述训练语义类型对应的训练样本集;将各个所述训练样本集中的各个训练样本语句分别输入预构建的BERT模型,对所述BERT模型进行训练,并将训练完成的BERT模型作为所述语义分类模型。上述的方法,可选的,所述语义类型集合中每个预设语义类型所对应的句向量的确定过程,包括:对于所述语义类型集合中每个所述预设语义类型,从该预设语义类型对应的验证样本集中,获取该预设语义类型对应的各个验证样本语句;将该预设语义类型对应的各个所述验证样本语句,分别输入所述语义分类模型中,经所述语义分类模型处理后,获得该预设语义类型对应的每个所述验证样本语句所对应的句向量;依据该预设语义类型对应的各个所述验证样本语句所对应的句向量,确定该预设语义类型所对应的句向量。上述的方法,可选的,所述依据该预设语义类型对应的各个所述验证样本语句所对应的句向量,确定该预设语义类型所对应的句向量,包括:将该预设语义类型对应的各个所述验证样本语句所对应的句向量相加,得到该预设语义类型对应的第一句向量;确定该预设语义类型对应的目标数值,所述目标数值为该预设语义类型对应的验证样本语句的总数量;将所述第一句向量除以所述目标数值,得到该预设语义类型对应的第二句向量,将所述第二句向量作为该预设语义类型对应的句向量。上述的方法,可选的,所述确定所述语义类型集合中每个所述预设语义类型对应的相似性参数,包括:确定所述语义类型集合中每个所述预设语义类型对应的距离参数,每个所述预设语义类型对应的距离参数表征,该预设语义类型对应的句向量与所述待分类语句对应的句向量之间的距离;将所述语义类型集合中每个所述预设语义类型对应的距离参数,作为所述语义类型集合中每个所述预设语义类型对应的相似性参数。上述的方法,可选的,所述确定所述语义类型集合中每个所述预设语义类型对应的距离参数,包括:对于所述语义类型集合中的每个所述预设语义类型,计算该预设语义类型对应的句向量与所述待分类语句对应的句向量之间的欧式距离,并将计算结果确定为该预设语义类型对应的距离参数。上述的方法,可选的,所述确定目标语义类型,包括:将所述语义类型集合中各个所述预设语义类型对应的距离参数进行比较,将对应的距离参数最小的预设语义类型确定为所述目标语义类型。一种语义分类装置,包括:第一输入单元,用于当接收到对待分类语句进行语义分类的指令时,将所述待分类语句输入预先建立的语义分类模型中,经所述语义分类模型处理后,获得所述待分类语句对应的句向量;第一确定单元,用于确定当前的语义类型集合,所述语义类型集合中包括多个预设语义类型;第一获取单元,用于获取所述语义类型集合中每个预设语义类型所对应的句向量,所述语义类型集合中每个所述预设语义类型对应的句向量为,基于该预设语义类型对应的验证样本集和所述语义分类模型所确定的向量;第二确定单元,用于确定所述语义类型集合中每个所述预设语义类型对应的相似性参数,每个所述预设语义类型对应的相似性参数表征,该预设语义类型对应的句向量与所述待分类语句对应的句向量的相似程度;第三确定单元,用于确定目标语义类型,所述目标语义类型为所述语义类型集合中,对应的相似性参数表征的相似程度最高的预设语义类型;第四确定单元,用于将所述目标语义类型作为所述待分类语句对应的语义类型。上述的装置,可选的,还包括:第五确定单元,用于确定各个训练语义类型;第六确定单元,用于确定每个所述训练语义类型对应的训练样本集;训练单元,用于将各个所述训练样本集中的各个训练样本语句分别输入预构建的BERT模型,对所述BERT模型进行训练,并将训练完成的BERT模型作为所述语义分类模型。上述的装置,可选的,还包括:第二获取单元,用于对于所述语义类型集合中每个所述预设语义类型,从该预设语义类型对应的验证样本集中,获取该预设语义类型对应的各个验证样本语句;第二输入单元,用于将该预设语义类型对应的各个所述验证样本语句,分别输入所述语义分类模型中,经所述语义分类模型处理后,获得该预设语义类型对应的每个所述验证样本语句所对应的句向量;第七确定单元,用于依据该预设语义类型对应的各个所述验证样本语句所对应的句向量,确定该预设语义类型所对应的句向量。上述的装置,可选的,所述第七确定单元,包括:第一计算子单元,用于将该预设语义类型对应的各个所述验证样本语句所对应的句向量相加,得到该预设语义本文档来自技高网...

【技术保护点】
1.一种语义分类方法,其特征在于,包括:/n当接收到对待分类语句进行语义分类的指令时,将所述待分类语句输入预先建立的语义分类模型中,经所述语义分类模型处理后,获得所述待分类语句对应的句向量;/n确定当前的语义类型集合,所述语义类型集合中包括多个预设语义类型;/n获取所述语义类型集合中每个预设语义类型所对应的句向量,所述语义类型集合中每个所述预设语义类型对应的句向量为,基于该预设语义类型对应的验证样本集和所述语义分类模型所确定的向量;/n确定所述语义类型集合中每个所述预设语义类型对应的相似性参数,每个所述预设语义类型对应的相似性参数表征,该预设语义类型对应的句向量与所述待分类语句对应的句向量的相似程度;/n确定目标语义类型,所述目标语义类型为所述语义类型集合中,对应的相似性参数表征的相似程度最高的预设语义类型;/n将所述目标语义类型作为所述待分类语句对应的语义类型。/n

【技术特征摘要】
1.一种语义分类方法,其特征在于,包括:
当接收到对待分类语句进行语义分类的指令时,将所述待分类语句输入预先建立的语义分类模型中,经所述语义分类模型处理后,获得所述待分类语句对应的句向量;
确定当前的语义类型集合,所述语义类型集合中包括多个预设语义类型;
获取所述语义类型集合中每个预设语义类型所对应的句向量,所述语义类型集合中每个所述预设语义类型对应的句向量为,基于该预设语义类型对应的验证样本集和所述语义分类模型所确定的向量;
确定所述语义类型集合中每个所述预设语义类型对应的相似性参数,每个所述预设语义类型对应的相似性参数表征,该预设语义类型对应的句向量与所述待分类语句对应的句向量的相似程度;
确定目标语义类型,所述目标语义类型为所述语义类型集合中,对应的相似性参数表征的相似程度最高的预设语义类型;
将所述目标语义类型作为所述待分类语句对应的语义类型。


2.根据权利要求1所述的方法,其特征在于,所述语义分类模型的建立过程,包括:
确定各个训练语义类型;
确定每个所述训练语义类型对应的训练样本集;
将各个所述训练样本集中的各个训练样本语句分别输入预构建的BERT模型,对所述BERT模型进行训练,并将训练完成的BERT模型作为所述语义分类模型。


3.根据权利要求1或2所述的方法,其特征在于,所述语义类型集合中每个预设语义类型所对应的句向量的确定过程,包括:
对于所述语义类型集合中每个所述预设语义类型,从该预设语义类型对应的验证样本集中,获取该预设语义类型对应的各个验证样本语句;
将该预设语义类型对应的各个所述验证样本语句,分别输入所述语义分类模型中,经所述语义分类模型处理后,获得该预设语义类型对应的每个所述验证样本语句所对应的句向量;
依据该预设语义类型对应的各个所述验证样本语句所对应的句向量,确定该预设语义类型所对应的句向量。


4.根据权利要求3所述的方法,其特征在于,所述依据该预设语义类型对应的各个所述验证样本语句所对应的句向量,确定该预设语义类型所对应的句向量,包括:
将该预设语义类型对应的各个所述验证样本语句所对应的句向量相加,得到该预设语义类型对应的第一句向量;
确定该预设语义类型对应的目标数值,所述目标数值为该预设语义类型对应的验证样本语句的总数量;
将所述第一句向量除以所述目标数值,得到该预设语义类型对应的第二句向量,将所述第二句向量作为该预设语义类型对应的句向量。


5.根据权利要求1所述的方法,其特征在于...

【专利技术属性】
技术研发人员:黄智超陈现麟王强
申请(专利权)人:北京读我科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1