一种相似命令文本的生成方法、装置、设备及存储介质制造方法及图纸

技术编号:34631237 阅读:11 留言:0更新日期:2022-08-24 15:03
本发明专利技术公开了一种相似命令文本的生成方法、装置、设备及存储介质,该方法包括:获取命令数据集,对所述命令数据集进行语料处理,生成句法模板与相似句对;基于所述句法模板与所述相似句对对预设文本生成模型进行训练,生成相似文本生成模型;将所述命令数据集与所述句法模板输入上述所述文本生成模型,生成相似命令文本。本方法实现了相似命令文本自动生成,对命令数据集进行了有效增广,充分覆盖了设备命令的各类语法表达形式。命令的各类语法表达形式。命令的各类语法表达形式。

【技术实现步骤摘要】
一种相似命令文本的生成方法、装置、设备及存储介质


[0001]本专利技术涉及数据处理领域,具体涉及一种相似命令文本的生成方法、装置、设备及存储介质。

技术介绍

[0002]目前采用语音控制诸如照明、空调、电视、窗帘等家居使用的设备,大部分基于固定的设备命令词表,用户读出设备命令词表所包含的命令词,意图识别算法识别意图并执行该命令。如果用户的命令表述超出词表范围,意图识别算法就不能识别该命令意图,则执行不了该命令。举例来说,词表中有“打开空调”这个命令,用户说“打开空调”就可以打开空调,但是说“开开空调”就不能打开空调了。
[0003]为了避免让用户记忆命令词表,使用更灵活多样的命令表述形式,意图识别算法需要学习足够多的相同语义不同表述的设备命令数据集。当前主要通过人工采集的方式获取设备命令数据集,但人工获取数据集的成本很高,而且获取的数据比较离散,不能充分获取各种语法形式的表达,由此导致意图识别的鲁棒性不足。
[0004]因此,如何对已有的数据集进行有效数据增广,获取覆盖各类语法模式的相同语义命令表述是本领域技术人员亟待解决的问题。

技术实现思路

[0005]因此,本专利技术要解决的技术问题在于克服现有技术中的人工获取数据集的数据离散,不能充分获取各种语法形式的表达,导致意图识别的鲁棒性不足缺陷,从而提供一种相似命令文本的生成方法、装置、设备及存储介质。
[0006]本专利技术实施例提供了一种相似命令文本的生成方法,包括如下步骤:
[0007]获取命令数据集,对所述命令数据集进行语料处理,生成句法模板与相似句对;
[0008]基于所述句法模板与所述相似句对对预设文本生成模型进行训练,生成相似文本生成模型;
[0009]将所述命令数据集与所述句法模板输入上述所述文本生成模型,生成相似命令文本。
[0010]可选地,所述获取命令数据集,对所述命令数据集进行语料处理,生成句法模板与相似句对,包括:
[0011]提取所述命令数据集中的命令句,利用词法分析器对所述命令句进行词法分析,生成词性特征;
[0012]对所述词性特征进行排序,生成所述句法模板;
[0013]提取所述命令数据集中的命令句,将命令类型相同的所述命令句两两组对,生成所述相似句对。
[0014]可选地,所述将所述命令数据集与所述句法模板输入上述所述文本生成模型,生成相似命令文本,包括:
[0015]基于所述命令数据集获取源句,对所述源句进行语义编码,生成源句语义隐向量;
[0016]获取所述句法模板,对所述句法模板进行句法编码,生成句法隐向量;
[0017]将所述语义隐向量与所述句法隐向量进行拼接,生成拼接向量;
[0018]将所述拼接向量进行解码,生成所述相似命令文本。
[0019]可选地,所述获取所述句法模板,对所述句法模板进行句法编码,生成句法隐向量,包括:
[0020]将所述句法模板对应的所述词性特征进行编码,生成词性特征向量;
[0021]对所述词性特征向量进行位置编码,生成所述句法隐向量。
[0022]可选地,所述获取所述句法模板,对所述句法模板进行句法编码,生成句法隐向量,包括:
[0023]遍历所述命令数据集对应的的所述句法模板,依次对所述句法模板进行句法编码,生成所述句法隐向量。
[0024]在本申请的第二个方面,还提出了一种相似命令文本的生成装置,包括:
[0025]处理模块,用于获取命令数据集,对所述命令数据集进行语料处理,生成句法模板与相似句对;
[0026]训练模块,用于基于所述句法模板与所述相似句对对预设文本生成模型进行训练,生成相似文本生成模型;
[0027]生成模块,用于将所述命令数据集与所述句法模板输入上述所述文本生成模型,生成相似命令文本。
[0028]可选地,所述处理模块,包括:
[0029]分析子模块,用于提取所述命令数据集中的命令句,利用词法分析器对所述命令句进行词法分析,生成词性特征;
[0030]排序子模块,用于对所述词性特征进行排序,生成所述句法模板;
[0031]组对子模块,用于提取所述命令数据集中的命令句,将命令类型相同的所述命令句两两组对,生成所述相似句对。
[0032]可选地,所述生成模块,包括:
[0033]第一编码子模块,用于基于所述命令数据集获取源句,对所述源句进行语义编码,生成源句语义隐向量;
[0034]第二编码子模块,用于获取所述句法模板,对所述句法模板进行句法编码,生成句法隐向量;
[0035]拼接子模块,用于将所述语义隐向量与所述句法隐向量进行拼接,生成拼接向量;
[0036]解码子模块,用于将所述拼接向量进行解码,生成所述相似命令文本。
[0037]可选地,所述第二编码子模块,包括:
[0038]第一生成单元,用于将所述句法模板对应的所述词性特征进行编码,生成词性特征向量;
[0039]第二生成单元,用于对所述词性特征向量进行位置编码,生成所述句法隐向量。
[0040]可选地,所述获取所述句法模板,对所述句法模板进行句法编码,生成句法隐向量,还包括:
[0041]遍历所述命令数据集对应的的所述句法模板,依次对所述句法模板进行句法编
码,生成所述句法隐向量。
[0042]在本申请的第三个方面,还提出了一种计算机设备,包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序,所述处理器被配置用于调用所述计算机程序,执行上述第一方面的方法。
[0043]在本申请的第四个方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行以实现上述第一方面的方法。
[0044]本专利技术技术方案,具有如下优点:
[0045]1.本专利技术提供的一种相似命令文本的生成方法,通过对人工采集的命令数据集进行语料处理,生成句法模板与相似句对,利用句法模板与相似句对对预设文本生成模型进行训练,生成训练好的相似文本生成模型,以命令数据集中的命令句和句法模板为输入,采用相似文本生成模型,生成的相似命令文本作为最后的增广结果,实现了相似命令文本自动生成,对命令数据集进行了有效增广,充分覆盖了设备命令的各类语法表达形式。
[0046]2.本专利技术通过词性特征构建句法模板,保证了生成语法形式的多样性。
[0047]3.本专利技术中的相似文本生成模型通过输入句法模板编码引导生成相似命令文本,保证了输出句法形式的可控性。
[0048]4.本专利技术对输入命令数据集中的源句取消位置编码,而对句法模板进行位置编码,确保了语义编码与句法无关,增强了命令数据集意图识别的鲁棒性。
附图说明
[0049]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种相似命令文本的生成方法,其特征在于,包括如下步骤:获取命令数据集,对所述命令数据集进行语料处理,生成句法模板与相似句对;基于所述句法模板与所述相似句对对预设文本生成模型进行训练,生成相似文本生成模型;将所述命令数据集与所述句法模板输入上述所述文本生成模型,生成相似命令文本。2.根据权利要求1所述的一种相似命令文本的生成方法,其特征在于,所述获取命令数据集,对所述命令数据集进行语料处理,生成句法模板与相似句对,包括:提取所述命令数据集中的命令句,利用词法分析器对所述命令句进行词法分析,生成词性特征;对所述词性特征进行排序,生成所述句法模板;提取所述命令数据集中的命令句,将命令类型相同的所述命令句两两组对,生成所述相似句对。3.根据权利要求2所述的一种相似命令文本的生成方法,其特征在于,所述将所述命令数据集与所述句法模板输入上述所述文本生成模型,生成相似命令文本,包括:基于所述命令数据集获取源句,对所述源句进行语义编码,生成源句语义隐向量;获取所述句法模板,对所述句法模板进行句法编码,生成句法隐向量;将所述语义隐向量与所述句法隐向量进行拼接,生成拼接向量;将所述拼接向量进行解码,生成所述相似命令文本。4.根据权利要求3所述的一种相似命令文本的生成方法,其特征在于,所述获取所述句法模板,对所述句法模板进行句法编码,生成句法隐向量,包括:将所述句法模板对应的所述词性特征进行编码,生成词性特征向量;对所述词性特征向量进行位置编码,生成所述句法隐向量。5.根据权利要求3所述的一种相似命令文本的生成方法,其特征在于,所述获取所述句法模板,对所述句法模板进行句法编码,生成句法隐向量,还包括:遍历所述命令数据集对应的的所述句法模板,依次对所述句法模板进行句...

【专利技术属性】
技术研发人员:罗思明
申请(专利权)人:北京探境科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1