System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 电子设备及电子设备的查询改写方法技术_技高网

电子设备及电子设备的查询改写方法技术

技术编号:40878475 阅读:3 留言:0更新日期:2024-04-08 16:48
本公开提供了一种电子设备及电子设备的查询改写方法,其中,电子设备的查询改写方法包括接收用户输入的语音指令,语音指令包括待识别语音数据;之后,响应于语音指令,确定待识别语音数据对应的初始查询数据;并通过多语言翻译预训练模型对初始查询数据进行处理,确定多个参考字段;再之后,基于多个参考字段的输出顺序,依次与前缀树中的多个节点进行匹配,确定至少一个参考字段对应的匹配节点;并基于至少一个参考字段对应的匹配节点及对应的目标查询词,得到目标查询数据;如此,能够通过前缀树对多语言翻译预训练模型确定的多个参考字段进行约束,使得改写结果可控,能够提高得到的目标查询数据的准确性。

【技术实现步骤摘要】

本公开涉及计算机,尤其涉及一种电子设备及电子设备的查询改写方法


技术介绍

1、近年来,随着深度学习研究的快速发展,多语言和跨语言人机交互成为研究热点。然而,由于语种的多样性、收音设备质量参差不齐、用户口音等问题,导致自动语音识别(automatic speech recognition,asr)模块识别出的用户查询数据(query)往往存在大量错误。而query的错误,将会影响后续的自然语言理解(natural languageunderstanding,,nlu)、对话状态追踪(dialog state tracking,dst)和自然语言生成(natural language generation,nlg)。如此,为了阻止错误的query对后续造成影响,需要对错误的query进行改写与纠正。

2、目前,可以基于相似度、编辑距离等方式挖掘得到高频词汇改写对;之后,基于高频词汇改写对,对query中的高频词汇进行改写。但是这样高频词汇的维护成本较高,且只能支持部分高频词汇的改写。还可以使用预训练模型生成目标query,利用目标query对有错误的query进行改写。但是预训练模型生成目标query的准确率较差,导致改写结果不可控。


技术实现思路

1、为了解决上述技术问题,本公开提供了一种电子设备及电子设备的查询改写方法,能够通过前缀树对多语言翻译预训练模型确定的多个参考字段进行约束,从而得到目标查询数据,完成查询改写;如此,使得改写结果可控,能够提高得到的目标查询数据的准确性,且不需要对高频词汇进行维护。

2、本公开的技术方案如下:

3、第一方面,本公开提供一种电子设备,包括:

4、通信器,被配置为接收用户输入的语音指令,语音指令包括待识别语音数据;

5、控制器,与通信器耦接,且被配置为:

6、响应于语音指令,确定待识别语音数据对应的初始查询数据;

7、通过多语言翻译预训练模型对初始查询数据进行处理,确定多个参考字段;

8、基于多个参考字段的输出顺序,依次与前缀树中的多个节点进行匹配,确定至少一个参考字段对应的匹配节点;

9、基于至少一个参考字段对应的匹配节点,以及各匹配节点对应的目标查询词,得到目标查询数据。

10、结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,控制器具体被配置为:

11、通过多语言翻译预训练模型对初始查询数据以及初始查询数据的上下文数据进行双向语义编码,得到编码结果;

12、通过多语言翻译预训练模型基于编码结果,确定多个参考字段。

13、结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,控制器还被配置为:

14、基于用户的历史日志数据,对历史日志数据中的历史查询词进行聚类统计;

15、基于聚类统计后的历史查询词,构建前缀树。

16、结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,控制器还被配置为:

17、基于用户的历史日志数据,得到目标改写信息;

18、基于目标改写信息对待训练多语言翻译预训练模型进行训练,得到多语言翻译预训练模型。

19、结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,控制器具体被配置为:

20、从用户的历史日志数据中确定参考改写信息;

21、基于参考改写信息的数据格式,确定目标改写信息。

22、结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,控制器具体被配置为:

23、将目标改写信息划分为训练集、测试集和开发集;

24、基于训练集对待训练多语言翻译预训练模型进行训练,得到训练后的多语言翻译预训练模型;

25、基于开发集对训练后的多语言翻译预训练模型中的超参数进行调整,得到调整后的多语言翻译预训练模型;

26、基于测试集对调整后的多语言翻译预训练模型进行评估,在调整后的多语言翻译预训练模型的评估结果小于预设阈值的情况下,得到多语言翻译预训练模型。

27、第二方面,本公开提供一种电子设备的查询改写方法,方法包括:

28、接收用户输入的语音指令,语音指令包括待识别语音数据;

29、响应于语音指令,确定待识别语音数据对应的初始查询数据;

30、通过多语言翻译预训练模型对初始查询数据进行处理,确定多个参考字段;

31、基于多个参考字段的输出顺序,依次与前缀树中的多个节点进行匹配,确定至少一个参考字段对应的匹配节点;

32、基于至少一个参考字段对应的匹配节点,以及各匹配节点对应的目标查询词,得到目标查询数据。

33、结合第二方面和上述可能的实现方式,在另一种可能的实现方式中,通过多语言翻译预训练模型对初始查询数据进行处理,确定多个参考字段,包括:

34、通过多语言翻译预训练模型对初始查询数据以及初始查询数据的上下文数据进行双向语义编码,得到编码结果;

35、通过多语言翻译预训练模型基于编码结果,确定多个参考字段。

36、结合第二方面和上述可能的实现方式,在另一种可能的实现方式中,还包括:

37、基于用户的历史日志数据,对历史日志数据中的历史查询词进行聚类统计;

38、基于聚类统计后的历史查询词,构建前缀树。

39、结合第二方面和上述可能的实现方式,在另一种可能的实现方式中,还包括:

40、基于用户的历史日志数据,得到目标改写信息;

41、基于目标改写信息对待训练多语言翻译预训练模型进行训练,得到多语言翻译预训练模型。

42、第三方面,本公开提供一种电子设备,包括:存储器和处理器,存储器用于存储计算机程序;处理器用于在执行计算机程序时,使得电子设备实现如第一方面提供的任一项的电子设备的查询改写方法。

43、第四方面,本专利技术提供一种计算机可读存储介质,包括:计算机可读存储介质上存储计算机程序,计算机程序被处理器执行如第一方面提供的任一项的电子设备的查询改写方法。

44、第五方面,本专利技术提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行如第一方面提供的任一项的电子设备的查询改写方法。

45、本申请实施例提供一种电子设备及电子设备的查询改写方法,其中,电子设备的查询改写方法包括接收用户输入的语音指令,语音指令包括待识别语音数据;之后,响应于语音指令,确定待识别语音数据对应的初始查询数据;并通过多语言翻译预训练模型对初始查询数据进行处理,确定多个参考字段;再之后,基于多个参考字段的输出顺序,依次与前缀树中的多个节点进行匹配,确定至少一个参考字段对应的匹配节点;最后,基于至少一个参考字段对应的匹配节点,以及各匹配节点对应的目标查询词,得到目标查询数据;如此,能够通过前缀树对多语言翻本文档来自技高网...

【技术保护点】

1.一种电子设备,其特征在于,包括:

2.根据权利要求1所述的电子设备,其特征在于,所述控制器具体被配置为:

3.根据权利要求1或2所述的电子设备,其特征在于,所述控制器还被配置为:

4.根据权利要求3所述的电子设备,其特征在于,所述控制器还被配置为:

5.根据权利要求4所述的电子设备,其特征在于,所述控制器具体被配置为:

6.根据权利要求5所述的电子设备,其特征在于,所述控制器具体被配置为:

7.一种电子设备的查询改写方法,其特征在于,所述方法包括:

8.根据权利要求7所述的方法,其特征在于,所述通过多语言翻译预训练模型对所述初始查询数据进行处理,确定多个参考字段,包括:

9.根据权利要求7或8所述的方法,其特征在于,还包括:

10.根据权利要求9所述的方法,其特征在于,还包括:

【技术特征摘要】

1.一种电子设备,其特征在于,包括:

2.根据权利要求1所述的电子设备,其特征在于,所述控制器具体被配置为:

3.根据权利要求1或2所述的电子设备,其特征在于,所述控制器还被配置为:

4.根据权利要求3所述的电子设备,其特征在于,所述控制器还被配置为:

5.根据权利要求4所述的电子设备,其特征在于,所述控制器具体被配置为:

6.根据权利要...

【专利技术属性】
技术研发人员:胡仁林朱飞
申请(专利权)人:VIDAA国际控股荷兰公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1