离线语义识别调整方法、装置、设备及存储介质制造方法及图纸

技术编号:21548113 阅读:13 留言:0更新日期:2019-07-06 21:34
本公开提供了一种离线语义识别调整方法,包括:对领域分类模型、意图分类模型及语义槽识别模型进行训练;根据领域词典进行分词调整;以及根据调整后的分词的扩展分类特征来调整领域分类模型、意图分类模型及语义槽识别模型。本公开还提供了一种离线语义识别调整装置、电子设备及可读存储介质。

Offline Semantic Recognition Adjustment Method, Device, Equipment and Storage Media

【技术实现步骤摘要】
离线语义识别调整方法、装置、设备及存储介质
本公开涉及一种离线语义识别调整方法、离线语义识别调整装置、电子设备及可读存储介质。
技术介绍
自然语言理解任务通常是获得一个语义表示(semanticrepresentation),当前常用的是采用领域(domain),意图(intent)和语义槽(slot)三种形式来表示语义结果。针对离线任务,通常是预训练一个模型,如分类模型或序列标注模型(意图识别通常被看作是分类任务),然后将其部署到离线平台。但是由于应用场景的不同,对模型的场景适用性也有一定的要求,因此需要根据具体的领域对模型进行调整,即模型定制。现有的技术方案基本都是通过增加训练语料的方法来进行模型的领域化调整,但是这种方法有一个明显的缺陷就是,通过增加训练语料添加的特征,通用性和可扩展性较差,部署到离线环境后,在对输入进行了简单变化或拓展后,模型往往还是无法适应。
技术实现思路
为了解决上述技术问题中的至少一个,本公开提供了一种离线语义识别调整方法、离线语义识别调整装置、电子设备及可读存储介质。根据本公开的一个方面,一种离线语义识别调整方法,包括:对领域分类模型、意图分类模型及语义槽识别模型进行训练;根据领域词典进行分词调整;以及根据调整后的分词的扩展分类特征来调整领域分类模型、意图分类模型及语义槽识别模型。根据本公开的一个实施方式,根据调整后的分词与基于规则的正则表达式的匹配结果作为扩展特征,根据所述扩展特征及所述扩展分类特征来调整领域分类模型和意图分类模型。根据本公开的一个实施方式,还包括:定制基于规则的正则表达式,其中根据领域的常见句式及表达习惯来定制基于规则的正则表达式。根据本公开的一个实施方式,基于调整后的分词与正则表达式的匹配结果来生成扩展后的分类特征,基于所述扩展后的分类特征来对领域分类模型和意图分类模型进行调整。根据本公开的一个实施方式,还包括:为相应领域定制领域词典,并且相对于所述相应领域,根据定制的领域词典进行分词调整。根据本公开的一个实施方式,当离线语义识别模型用于其它领域的离线语义识别时,通过更换至与其它领域相关的领域词典,根据更换后的领域词典进行分词调整;以及根据调整后的分词的扩展分类特征来调整领域分类模型、意图分类模型及语义槽识别模型,以适用于所述其它领域。根据本公开的一个实施方式,所述领域词典存储于设备终端,并且基于存储在设备终端的领域词典进行分词调整。根据本公开的另一方面,一种离线语义识别调整装置,包括:训练模块,对领域分类模型、意图分类模型及语义槽识别模型进行训练;分词调整模型,根据领域词典进行分词调整;以及扩展调整模块,根据调整后的分词的扩展分类特征来调整领域分类模型、意图分类模型及语义槽识别模型。根据本公开的又一方面,一种电子设备,包括:存储器,存储器存储计算机执行指令;以及处理器,处理器执行存储器存储的计算机执行指令,使得处理器执行上述的方法。根据本公开的再一方面,一种可读存储介质,可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述的方法。附图说明附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。图1是根据本公开一个实施方式的离线语义识别调整方法的示意性流程图。图2是根据本公开一个实施方式的离线语义识别调整方法的示意性流程图。图3是根据本公开一个实施方式的离线语义识别装置的示意性框图。图4是根据本公开一个实施方式的离线语义识别装置的示意性框图。图5是根据本公开一个实施方式的电子设备的示意性视图。具体实施方式下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开。自然语言理解(NaturalLanguageUnderstanding,简称NLU)技术,包括句子检测、分词、词性标注、句法分析、文本分类/聚类、文字角度、信息抽取/自动摘要、机器翻译,自动问答、文本生成等多个领域。根据本公开的一个实施方式,提供了一种离线语义识别调整方法。如图1所示,该离线语义识别调整方法10包括:步骤S11,对领域分类模型、意图分类模型及语义槽识别模型进行训练;步骤S12,根据领域词典进行分词调整;以及步骤S13,根据调整后的分词的扩展分类特征来调整领域分类模型、意图分类模型及语义槽识别模型。在步骤S11中,对领域分类模型、意图分类模型及语义槽识别模型进行训练。其中对于NLU任务而言,存在三个任务:领域(domain)分类、意图(intent)分类、及语义槽(slot)识别。在该步骤中,可以通过已有的语料数据对上述任务的领域分类模型、意图分类模型及语义槽识别模型进行模型训练。其中上述三个模型可以为一个整体模型,也可以是独立模型等。在步骤S12中,根据领域词典进行分词调整。其中,可以为每个领域定制领域词典,例如针对天气领域,可以定制“城市类词典”和“时间类词典”,针对音乐领域,可以定制“艺术家类词典”和“歌曲词典”等。下面以天气领域为例,例如在步骤S11中训练后的模型对“北京十一天气”的分词结果为:北京/十/一/天气。通过选择与天气领域相关的城市类词典和时间类词典,并且在该城市类词典中存在“北京”、且在时间类词典中存在“十一”。那么根据所选的领域词典,对分词结果会从“北京/十/一/天气”调整为“北京/十一/天气”。在本公开中,领域词典为存储在用户设备终端的领域词典,例如各种知识库等。在步骤S13中,根据调整后的分词的扩展分类特征来调整领域分类模型、意图分类模型及语义槽识别模型。以“北京/十一/天气”的调整后的分词结果为例,将分词的序列标注特征“北京/location十一/time/天气/weather/other”来作为扩展分类特征,如北京的序列标注特征为location,十一的序列标注特征为time,天气的序列标注特征为weather,other对应于意图。这样,通过领域词典的引入,对分类特征进行了扩展。这样基于扩展分类特征对领域分类模型、意图分类模型及语义槽识别模型进行领域化调整。根据本公开的再一实施方式,提供了一种离线语义识别调整方法。如图2所示,该方法20包括步骤S21,对领域分类模型、意图分类模型及语义槽识别模型进行训练、S22,根据领域词典进行分词调整、S23,根据调整后的分词的扩展分类特征来调整语义槽识别模型、S24,将调整后的分词与基于规则的正则表达式的匹配结果作为扩展特征,并且根据所述扩展特征及所述扩展分类特征来调整领域分类模型和意图分类模型。其中,方法20的步骤S21、步骤S22与方法10的步骤S11、S12的处理方法相同。为了简洁起见,在此不再赘述。在步骤S23中,根据调整后的分词的扩展分类特征来调整语义槽识别模型。在该步骤中,与方法10的步骤S13类似地对语义槽识别模型进行调整。简单而言,通过所选的领域词典对分词进行调整,并且基于调整后的分词的序列标本文档来自技高网...

【技术保护点】
1.一种离线语义识别调整方法,其特征在于,包括:对领域分类模型、意图分类模型及语义槽识别模型进行训练;根据相应领域的领域词典进行分词调整;以及根据调整后的分词的扩展分类特征来相对于所述相应领域来调整领域分类模型、意图分类模型及语义槽识别模型。

【技术特征摘要】
1.一种离线语义识别调整方法,其特征在于,包括:对领域分类模型、意图分类模型及语义槽识别模型进行训练;根据相应领域的领域词典进行分词调整;以及根据调整后的分词的扩展分类特征来相对于所述相应领域来调整领域分类模型、意图分类模型及语义槽识别模型。2.如权利要求1所述的方法,其特征在于,根据调整后的分词与基于规则的正则表达式的匹配结果作为扩展特征,根据所述扩展特征及所述扩展分类特征来调整领域分类模型和意图分类模型。3.如权利要求2所述的方法,其特征在于,还包括:定制基于规则的正则表达式,其中根据领域的常见句式及表达习惯来定制基于规则的正则表达式。4.如权利要求1至3中任一项所述的方法,其特征在于,基于调整后的分词与正则表达式的匹配结果来生成扩展后的分类特征,基于所述扩展后的分类特征来对领域分类模型和意图分类模型进行调整。5.如权利要求1至4中任一项所述的方法,其特征在于,还包括:为相应领域定制领域词典,并且相对于所述相应领域,根据定制的领域词典进行分词调整。6.如权利要求1至5中任一项所述的方法,其特征在于...

【专利技术属性】
技术研发人员:孟振南
申请(专利权)人:出门问问信息科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1