A voice for the detection of deception long short term memory including the convolution end end of the depth of the neural network, based on a convolutional neural network front with long short term memory mapping and a neural network classifier, the front-end convolutional neural network includes at least two standard for feature extraction of CNN and at least one label for prediction CNN, for the prediction of the CNN standard features to label sequence long short term memory label prediction. By considering the comprehensive capability of existing features, the invention avoids the process of feature extraction, and improves the adaptability of the method architecture to different tasks.
【技术实现步骤摘要】
用于语音欺骗检测的基于卷积长短期记忆端对端深度神经网络
本专利技术涉及一种语音处理领域的技术,具体涉及一种原波输入的用于语音欺骗检测的基于卷积长短期记忆端对端深度神经网络(CLDNN)。
技术介绍
欺骗检测是说话人确认领域中的一个分支,用于区分真实(人)的与人造(欺骗性)的口头话语。欺骗检测的主要目的是计算每个话语的评分,并用评分区分这两种(欺骗性的,人的)话语种类。评分用于计算出一个阈值,通过这个阈值一个话语可被划分为真实的(如果其评分大于定义的阈值)或者欺骗性的(其评分低于阈值)。检测欺骗性语音需要特征:人工向量,目的在于在一个较低的维度空间内表示一个给定的话语,唯一性是首要的。在传统的语音相关任务中,原波话语拥有高维度,因而对真实世界里的任务不可行。特征一般在固定大小的帧窗中从给定的原波话语中提取出来。另外,相邻帧窗的重叠用于合并上下文信息。在说话人-反欺骗社区内,大多数研究工作着重于伪造人工特征,这样能够成功区分前述两个话语种类。对于后端分类器,如支持向量机(SupportVectorMachine,SVM)和高斯混合模型(GaussianMixtureM ...
【技术保护点】
一种用于端对端原波语音欺骗检测的卷积长短期记忆深度神经网络,其特征在于,包括:一个具备长短期记忆序列映射的卷积神经网络前端和一个神经网络直接分类器,其中:所述的卷积神经网络前端包括:至少两个用于标准特征提取的CNN和至少一个用于标签预测的CNN,该用于标签预测的CNN标准特征以长短期记忆的序列方式进行标签预测。
【技术特征摘要】
1.一种用于端对端原波语音欺骗检测的卷积长短期记忆深度神经网络,其特征在于,包括:一个具备长短期记忆序列映射的卷积神经网络前端和一个神经网络直接分类器,其中:所述的卷积神经网络前端包括:至少两个用于标准特征提取的CNN和至少一个用于标签预测的CNN,该用于标签预测的CNN标准特征以长短期记忆的序列方式进行标签预测。2.根据权利要求1所述的卷积长短期记忆深度神经网络,其特征是,所述的用于标准特征提取的CNN采用时序卷积神经网络进行标准特征提取,其中:第一个CNN将导入的原波输入缩小为固定大小的向量,第二个CNN则对缩小后的特征信号进行不变性转化。3.根据权利要求2所述的卷积长短期记忆深度神经网络,其特征是,所述的向量的大小与常量特征39维相似。4.根据权利要求2所述的卷积长短期记忆深度神经网络,其特征是,所述的...
【专利技术属性】
技术研发人员:钱彦旻,俞凯,D·海因里希,
申请(专利权)人:上海交通大学,苏州思必驰信息科技有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。