当前位置: 首页 > 专利查询>江汉大学专利>正文

基于狄利克雷变分自编码器的口语理解方法及相关设备技术

技术编号:25805965 阅读:39 留言:0更新日期:2020-09-29 18:40
本发明专利技术公开一种基于狄利克雷变分自编码器的口语理解方法,属于计算机技术领域,该方法包括:利用狄利克雷变分自编码器对训练语料进行采样,生成采样语料集;依据所述采样语料集,进行数据增强;生成训练语料。本发明专利技术实现了将基于狄利克雷变分自编码器的半监督学习方法引入到口语理解的建模过程中,学习原始数据潜在的语义特征并生成高质量的新数据,降低了标注成本,达到了提升口语理解模型的有益效果。

【技术实现步骤摘要】
基于狄利克雷变分自编码器的口语理解方法及相关设备
本专利技术涉及计算机
,尤其涉及一种基于狄利克雷变分自编码器的口语理解方法及相关设备。
技术介绍
任务型对话系统是通过多轮对话帮助用户完成特定任务的人机交互系统,这是一个受到广泛关注且应用前景广阔的研究方向。当前,已有众多研究机构和科技公司涉足于任务型对话系统这一领域,如阿里巴巴的天猫精灵、苹果的Siri、微软的小娜等。口语理解是构建任务型对话系统的一项核心技术,用于将用户原始输入的自然语言解析为计算机可以理解的结构化语义表达。该表达包含了最能代表用户意图的语义单元,对于人机交互系统的开发至关重要。近年来,基于深度神经网络的口语理解模型取得了较大进展,特别是语义槽填充(SlotFilling)和意图识别(IntentClassifier)的联合学习模型。这种模型的基本思想是使用神经网络来学习输入语句的语义信息,而后输出整个句子的意图类别和每个词语对应的语义槽标签。在这种模型中,意图类别和语义槽标签的生成过程可以相互学习,共同提升性能。相较于传统机器学习与基于规则方法的方法,联合学习本文档来自技高网...

【技术保护点】
1.一种基于狄利克雷变分自编码器的口语理解方法,其特征在于,所述方法包括:/nS11、利用狄利克雷变分自编码器对训练语料进行采样,生成采样语料集;/nS12、依据所述采样语料集,进行数据增强;/nS13、生成训练语料。/n

【技术特征摘要】
1.一种基于狄利克雷变分自编码器的口语理解方法,其特征在于,所述方法包括:
S11、利用狄利克雷变分自编码器对训练语料进行采样,生成采样语料集;
S12、依据所述采样语料集,进行数据增强;
S13、生成训练语料。


2.如权利要求1所述的基于狄利克雷变分自编码器的口语理解方法,其特征在于,所述利用狄利克雷变分自编码器对训练语料进行采样,生成采样语料集具体包括:
S111、给定采样语料数量n,初始化空语料集M;
S112、当所述M中的语料数量小于n时,循环S1121-S1124:
S1121、选取一个真实词序列w;
S1122、通过逆伽马分布函数近似方法推断近似后验参数
S1123、通过变分分布qφ(w|z)采样
S1124、将采样语料加入M中;
S13、生成所述采样语料集。


3.如权利要求2所述的基于狄利克雷变分自编码器的口语理解方法,其特征在于,所述生成训练语料具体包括如下步骤:
S131、首先采样z~qφ(z),然后利用狄利克雷变分自编码器近似估计pη(w|z);
S132、利用pη(w|z)采样得到生成词序列
S133、利用生成词生成词序列训练口语理解联合模型,推断
S134、生成槽填充与意图识别结果
S135、将和一起组成新的训练语料并添加至生成语料集中。


4.如权利要求3所述的基于狄利克雷变分自编码器的口语理解方法,其特征在于,所述进行数据增强具体包括:
通过潜在变量z和采样语料对语义槽填充和意图识别任务进行数据增强。


5.一种基于狄利克雷变分自编码器的口语理解系统,其特征在于,所述系统包括:
采样语料集生成模块,被配置为利用狄利克雷变分自编码器对训练语料进行采样,生成采样语料集;
数据增强模块,被配置为依据所述采样语料集,进行数据增强;
训练语料生成模块,被配置为生成训练语料。

【专利技术属性】
技术研发人员:高望朱珣邓宏涛王煜炜曾凡琮
申请(专利权)人:江汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1