System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及语音交互,更具体而言,涉及一种语音请求训练数据的生成方法、服务器和计算机可读存储介质。
技术介绍
1、在车辆的语音控制领域,为保障业务正确地理解和处理自然语言需要大量的语音请求训练数据。训练数据可来源于用户在真实使用过程中的数据。然而,对于上线新功能,或数据样本量较少的功能,往往需要依赖于人工编写语音请求训练数据,然而如此,由人工编写的训练数据随机性较强,可能存在多样性、准确性等缺陷。
技术实现思路
1、本申请提供了一种语音请求训练数据的生成方法、服务器和计算机可读存储介质。
2、本申请实施方式的语音请求训练数据的生成方法,包括:
3、根据预定义句式模板确定目标句式;
4、根据预定义图谱和所述目标句式确定替换词;
5、根据所述目标句式和所述替换词生成目标语音请求训练数据。
6、如此,本申请实施方式中,在生成语音请求训练数据时,基于预先定义的句式模板确定目标句式,保证了在句子表达过程中词汇组织的符合人类组织语言的习惯和方法。预先定义的图谱对基于实体、槽位和属性等标签信息对知识进行了扩展并对相关联的知识进行链接。根据目标句子中所定义的可替换成分的属性,可在图谱中确定替换词,由此生成目标语音请求训练数据。所生成的目标语音请求训练数据句式丰富、词汇丰富,并以图谱为依据,训练数据自带标签,兼顾了多样性和准确性。
7、在某些实施方式中,所述预定义图谱通过以下步骤构建:
8、根据车辆零部件、零部件附属关
9、如此,图谱提供车辆领域中车辆的零部件之间、零部件与功能、功能和功能之间的关系,为替换词生成提供依据,同时提供推理能力,利用图谱和句式能够批量的生成训练数据。
10、在某些实施方式中,所述根据预定义句式模板确定目标句式,包括:
11、根据所述预定义句式模板随机确定目标句式。
12、如此,在缺少目标的情况下,可以随机在句式模板中确定目标句式进而生成训练数据,使得训练数据的数量得以扩展,丰富了训练数据的多样性,同时又能保证训练数据符合人类组织语言的习惯和方法。
13、在某些实施方式中,所述根据预定义句式模板确定目标句式,包括:
14、根据所述预定义句式模板确定目标语音请求的句式;
15、将所述目标语音请求的句式确定为所述目标句式。
16、如此,对于训练数据样本量较少的情况,可先确定适用句式,将该句式作为目标句式,从而基于已有的目标语音请求生成训练数据,利用现有符合表达习惯的句式作为目标句式进行而生成更多训练数据。
17、在某些实施方式中,所述根据预定义图谱和所述目标句式确定替换词,包括:
18、确定所述目标句式中替换成分的属性信息;
19、根据所述属性信息,在所述预定义图谱中选择相同属性信息的目标对象;
20、根据所述目标对象确定所述替换词。
21、如此,有赖于句中实体的属性信息,可确保各个成分相互搭配的合理性。根据目标句式中替换成分的属性信息,可在图谱中确定目标对象,由此,可保证生成的训练数据基本合理准确。
22、在某些实施方式中,所述根据所述目标句式和所述替换词生成目标语音请求训练数据,包括:
23、继承所述目标句式中的保留成分;
24、将所述替换词填入所述替换成分;
25、根据所述保留成分和填充后的替换成分生成第一语音请求训练数据。
26、如此,基于目标句式各个实体的成分,将保留部分继承,替换部分采用先前确定的替换成分进行成分,由此可初步生成出第一语音请求训练数据。
27、在某些实施方式中,所述根据所述目标句式和所述替换词生成目标语音请求训练数据,还包括:
28、根据预设泛化词表对所述第一语音请求训练数据进行泛化处理,生成所述目标语音请求训练数据。
29、如此,根据生成的第一语音请求训练数据,基于预设的泛化词表对第一语音请求训练数据进行泛化处理,可以对第一语音请求训练数据,基于层级、属性关系等进行同义替换,从而扩展得到更多的训练数据。
30、在某些实施方式中,所述根据预设泛化词表对所述第一语音请求训练数据进行泛化处理,生成目标语音请求训练数据,包括:
31、对所述第一语音请求训练数据中的实体词和动作词进行泛化处理得到第二语音请求训练数据;
32、根据预定义的动作属性规则对所述第二语音请求训练数据进行筛选,生成所述目标语音请求训练数据。
33、如此,泛化处理主要针对于语音请求中的实体词和动作词进行,根据预定的动作属性规则对泛化处理后得到的第二语音请求训练数据进行筛选,保证泛化后句子的合理准确。
34、本申请实施方式的服务器,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现上述的方法。
35、本申请的计算机可读存储介质,存储有计算机程序,当所述计算机程序被一个或多个处理器执行时,实现上述的方法。
36、本申请的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实施方式的实践了解到。
本文档来自技高网...【技术保护点】
1.一种语音请求训练数据的生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的生成方法,其特征在于,所述预定义图谱通过以下步骤构建:
3.根据权利要求1所述的生成方法,其特征在于,所述根据预定义句式模板确定目标句式,包括:
4.根据权利要求1所述的生成方法,其特征在于,所述根据预定义句式模板确定目标句式,包括:
5.根据权利要求1所述的生成方法,其特征在于,所述根据预定义图谱和所述目标句式确定替换词,包括:
6.根据权利要求5所述的生成方法,其特征在于,所述根据所述目标句式和所述替换词生成目标语音请求训练数据,包括:
7.根据权利要求6所述的生成方法,其特征在于,所述根据所述目标句式和所述替换词生成目标语音请求训练数据,还包括:
8.根据权利要求7所述的生成方法,其特征在于,所述根据预设泛化词表对所述第一语音请求训练数据进行泛化处理,生成目标语音请求训练数据,包括:
9.一种服务器,其特征在于,所述服务器包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被一个或多个处理器执行时,实现如权利要求1-8任意一项所述的方法。
...【技术特征摘要】
1.一种语音请求训练数据的生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的生成方法,其特征在于,所述预定义图谱通过以下步骤构建:
3.根据权利要求1所述的生成方法,其特征在于,所述根据预定义句式模板确定目标句式,包括:
4.根据权利要求1所述的生成方法,其特征在于,所述根据预定义句式模板确定目标句式,包括:
5.根据权利要求1所述的生成方法,其特征在于,所述根据预定义图谱和所述目标句式确定替换词,包括:
6.根据权利要求5所述的生成方法,其特征在于,所述根据所述目标句式和所述替换词生成目标语音请求训练数据,包括:
7....
【专利技术属性】
技术研发人员:唐祥光,孙仿逊,曹川,李嘉辉,谢晓烜,蔡恩磊,徐谦,胡璟,
申请(专利权)人:广州小鹏汽车科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。