System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种自然语言处理方法、装置、电子设备及存储介质制造方法及图纸_技高网

一种自然语言处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:41227298 阅读:2 留言:0更新日期:2024-05-09 23:44
本申请涉及人工智能技术领域,公开了一种自然语言处理方法、装置、电子设备及存储介质,本申请实施例在获取到用户的输入文本的情况下;对输入文本进行实体识别和停用词识别,得到识别结果;对输入文本和识别结果进行编译,以构建第一有限状态转换器模型;利用第一有限状态转换器模型进行规则匹配,以得到至少一条第一匹配文本,至少一条第一匹配文本中的每条第一匹配文本中包括输入文本的意图标注信息和/或槽位标注信息;基于意图标注信息和/或槽位标注信息确定每条第一匹配文本对应的意图信息和/或槽位信息。本申请实施例有利于提升NLU中的匹配效率,以快速高效地提取出意图信息和/或槽位信息。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及一种自然语言处理方法、装置、电子设备及存储介质


技术介绍

1、自然语言理解(natural language understanding,nlu)是自然语言处理(natural language processing,nlp)的一个子领域,意图识别和槽位填充是nlu最关键的两项任务,而语言所具有的多样、歧义、知识依赖等特性会给完成这两项任务带来不小难度。目前业界主流的nlu方法包括基于规则的方法和基于深度学习的方法,基于规则的方法在对文本进行处理时,需要nlu引擎编译大量的规则,这会增加一定的时延;基于深度学习的方法虽然是更为先进的方法,但在处理高频句式的快速迭代方面,表现也不佳。可见,提升实际业务中nlu的处理效率是当前亟待解决的问题。


技术实现思路

1、本申请实施例提供了一种自然语言处理方法、装置、电子设备及存储介质,有利于提升nlu中的匹配效率,以快速高效地提取出意图信息和/或槽位信息。

2、第一方面,本申请实施例提供一种自然语言处理方法,应用于电子设备,该方法包括:

3、获取用户的输入文本;

4、对输入文本进行实体识别和停用词识别,得到识别结果;

5、对输入文本和识别结果进行编译,以构建第一有限状态转换器模型;

6、利用第一有限状态转换器模型进行规则匹配,以得到至少一条第一匹配文本,至少一条第一匹配文本中的每条第一匹配文本中包括输入文本的意图标注信息和/或槽位标注信息;

7、基于意图标注信息和/或槽位标注信息确定每条第一匹配文本对应的意图信息和/或槽位信息。

8、可以看出,本申请实施例中,电子设备对输入文本、输入文本的实体识别结果和停用词识别结果进行编译,以构建第一fst模型,从而使第一fst模型包括了多种可能的编译结果(比如:第一fst模型的每条路径表示一种编译结果)。电子设备采用包括多种可能的编译信息的第一fst模型与预设的fst规则进行匹配,在一次匹配中完成了多次匹配的工作量,提升了nlu中fst规则匹配的性能,能够快速且高效地得到包括意图标注信息和槽位标注信息的匹配文本,从而提升nlu中获取意图信息和槽位信息的效率。

9、在一种可能的实施方式中,利用第一有限状态转换器模型进行规则匹配,以得到至少一条第一匹配文本,包括:

10、将第一有限状态转换器模型与多个第二有限状态转换器模型进行匹配,得到一个或多个匹配结果,多个第二有限状态转换器模型是分别基于预设的多个意图的语法规则构建的,语法规则中采用实体标签表示实体;

11、基于一个或多个匹配结果,得到至少一条第一匹配文本。

12、可以看出,该实施方式中,由于预先编辑的语法规则中采用实体标签表示实体,因此,无需将实体编译到第二fst模型中,实现了实体的外置,这样可以降低电子设备的编译时延,同时有利于降低第二fst模型的体量。将第一fst模型与体量更小的第二fst模型进行匹配,有利于提升fst规则匹配的效率,快速高效地输出第一匹配文本。

13、在一种可能的实施方式中,多个第二有限状态转换器模型中的每个第二有限状态转换器模型中的每个状态转移均有预设权重,将第一有限状态转换器模型与多个第二有限状态转换器模型进行匹配,得到一个或多个匹配结果,包括:

14、对第一有限状态转换器模型和多个第二有限状态转换器模型进行公共路径查找,得到一条或多条公共路径;

15、获取一条或多条公共路径中的每条公共路径的累积权重;

16、将每条公共路径和每条公共路径的累积权重确定为匹配结果,得到一个或多个匹配结果。

17、可以看出,该实施方式中,由于第一fst模型是基于输入文本、实体识别结果和停用词识别结果构建的,其包括了多种可能的编译信息,电子设备对包括多种可能的第一fst模型与第二fst模型进行公共路径查找,在一次匹配中完成了多次匹配的工作量,提升了公共路径查找的效率,能够更高效地得到匹配结果。

18、在一种可能的实施方式中,基于一个或多个匹配结果,得到至少一条第一匹配文本,包括:

19、在匹配结果为一个的情况下,对匹配结果中的公共路径进行解码,得到第一匹配文本;

20、在匹配结果为多个的情况下,基于每个匹配结果中的公共路径的累积权重得到每个匹配结果的置信度评分;

21、从多个匹配结果中确定出置信度评分大于或等于评分阈值的至少一个匹配结果;

22、对至少一个匹配结果中每个匹配结果中的公共路径进行解码,得到至少一条第一匹配文本。

23、可以看出,该实施方式中,在匹配结果为多个的情况下,电子设备可基于公共路径的累积权重计算出每个匹配结果的置信度评分(置信度评分越高表示匹配结果越准确),并确定出置信度评分大于或等于评分阈值的匹配结果,将该匹配结果中的公共路径解码为第一匹配文本,由于该第一匹配文本中包括输入文本的意图标注信息和/或槽位标注信息,因此,有利于提升基于该第一匹配文本确定意图信息和槽位信息的准确度。

24、在一种可能的实施方式中,在基于意图标注信息和/或槽位标注信息确定每条第一匹配文本对应的意图信息和/或槽位信息之后,该方法还包括:

25、基于识别结果,对每条第一匹配文本进行后处理,得到第二匹配文本;

26、对第二匹配文本进行结构化处理并输出结构化信息。

27、可以看出,该实施方式中,电子设备基于输入文本的实体识别结果和停用词识别结果,能够得到更完整的第二匹配文本,从而便于基于第二匹配文本对nlu的处理结果进行结构化输出。

28、第二方面,本申请实施例提供了一种自然语言处理装置,该装置包括获取单元和处理单元;

29、获取单元,用于获取用户的输入文本;

30、处理单元,用于对输入文本进行实体识别和停用词识别,得到识别结果;对输入文本和识别结果进行编译,以构建第一有限状态转换器模型;利用第一有限状态转换器模型进行规则匹配,以得到至少一条第一匹配文本,至少一条第一匹配文本中的每条第一匹配文本中包括输入文本的意图标注信息和/或槽位标注信息;基于意图标注信息和/或槽位标注信息确定每条第一匹配文本对应的意图信息和/或槽位信息。

31、在一种可能的实施方式中,在利用第一有限状态转换器模型进行规则匹配,以得到至少一条第一匹配文本方面,处理单元具体用于:

32、将第一有限状态转换器模型与多个第二有限状态转换器模型进行匹配,得到一个或多个匹配结果,多个第二有限状态转换器模型是分别基于预设的多个意图的语法规则构建的,语法规则中采用实体标签表示实体;

33、基于一个或多个匹配结果,得到至少一条第一匹配文本。

34、在一种可能的实施方式中,多个第二有限状态转换器模型中的每个第二有限状态转换器模型中的每个状态转移均有预设权重,在将第一有限状态转换器模型与多个第二有限状态转换器模型进行匹配,本文档来自技高网...

【技术保护点】

1.一种自然语言处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述利用所述第一有限状态转换器模型进行规则匹配,以得到至少一条第一匹配文本,包括:

3.根据权利要求2所述的方法,其特征在于,所述多个第二有限状态转换器模型中的每个第二有限状态转换器模型中的每个状态转移均有预设权重,所述将所述第一有限状态转换器模型与多个第二有限状态转换器模型进行匹配,得到一个或多个匹配结果,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述一个或多个匹配结果,得到所述至少一条第一匹配文本,包括:

5.根据权利要求1-4任一项所述的方法,其特征在于,在基于所述意图标注信息和/或所述槽位标注信息确定所述每条第一匹配文本对应的意图信息和/或槽位信息之后,所述方法还包括:

6.一种自然语言处理装置,其特征在于,所述装置包括获取单元和处理单元;

7.根据权利要求6所述的装置,其特征在于,在利用所述第一有限状态转换器模型进行规则匹配,以得到至少一条第一匹配文本方面,所述处理单元具体用于:

<p>8.根据权利要求7所述的装置,其特征在于,所述多个第二有限状态转换器模型中的每个第二有限状态转换器模型中的每个状态转移均有预设权重,在将所述第一有限状态转换器模型与多个第二有限状态转换器模型进行匹配,得到一个或多个匹配结果方面,所述处理单元具体用于:

9.根据权利要求8所述的装置,其特征在于,在基于所述一个或多个匹配结果,得到所述至少一条第一匹配文本方面,所述处理单元具体用于:

10.根据权利要求6-9任一项所述的装置,其特征在于,所述处理单元还用于:

11.一种电子设备,其特征在于,包括处理器、存储器,以及一个或多个程序,所述处理器与所述存储器相连,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述处理器执行时实现如权利要求1-5中任一项所述的方法。

12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有用于电子设备执行的计算机程序,所述计算机程序被执行时实现权利要求1-5中任一项所述的方法。

13.一种计算机程序产品,其特征在于,当所述计算机程序产品被电子设备运行,使得所述电子设备执行如权利要求1-5中任一项所述的方法。

...

【技术特征摘要】

1.一种自然语言处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述利用所述第一有限状态转换器模型进行规则匹配,以得到至少一条第一匹配文本,包括:

3.根据权利要求2所述的方法,其特征在于,所述多个第二有限状态转换器模型中的每个第二有限状态转换器模型中的每个状态转移均有预设权重,所述将所述第一有限状态转换器模型与多个第二有限状态转换器模型进行匹配,得到一个或多个匹配结果,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述一个或多个匹配结果,得到所述至少一条第一匹配文本,包括:

5.根据权利要求1-4任一项所述的方法,其特征在于,在基于所述意图标注信息和/或所述槽位标注信息确定所述每条第一匹配文本对应的意图信息和/或槽位信息之后,所述方法还包括:

6.一种自然语言处理装置,其特征在于,所述装置包括获取单元和处理单元;

7.根据权利要求6所述的装置,其特征在于,在利用所述第一有限状态转换器模型进行规则匹配,以得到至少一条第一匹配文本方面,所述处理单元具体用于:

8.根据权利...

【专利技术属性】
技术研发人员:潘龙飞
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1