基于度量学习的语音时序数据相似性度量方法技术

技术编号:21914757 阅读:40 留言:0更新日期:2019-08-21 12:39
本发明专利技术提供基于度量学习的语音时序数据相似性度量方法,属于数据分类技术领域。本发明专利技术首先获取语音时序数据;结合马氏距离和斯皮尔曼线性相关性系数计算语音时序数据的局部距离,然后使用动态时间弯曲算法得到动态时间弯曲距离的表达式;再根据PGDM度量学习框架建立以马氏矩阵为参数的损失函数;求解损失函数计算出针对当前训练集样本的马氏矩阵;最后将步骤四中求得的马氏矩阵代入动态时间弯曲距离的表达式,得到每两个语音时序数据样本的相似性度量。本发明专利技术解决了现有语音时序数据相似性度量不准确的问题。本发明专利技术可用于语音时序数据的相似性度量。

Similarity Measurement of Speech Time Series Data Based on Metric Learning

【技术实现步骤摘要】
基于度量学习的语音时序数据相似性度量方法
本专利技术涉及语音时序数据相似性度量方法,属于数据分类

技术介绍
多变量时序数据数据分析是语音识别领域研究非常重要的工作。目前大部分主流的时序数据分析方法一般都只适用于单变量时序数据的数据分析,在多变量时序数据分析领域目前的研究不够完善(林珠,邢延.数据挖掘中适用于分类的时序数据特征提取方法[J].计算机系统应用,2012,21(10):224-229.)。相比于单变量时序方法,多变量时序数据分析方法适用领域更加多样,应用范围也更加广泛。目前常用的多变量时序数据相似性度量方法大多都是基于传统方法改进而来。例如:基于欧氏距离的动态时间弯曲(MahalanobisDistance-BasedDynamicTimeWraping,ED-DTW)方法、基于马氏距离的动态时间弯曲(MahalanobisDistance-BasedDynamicTimeWraping,MD-DTW)方法(MeiJ,LiuM,WangYF,etal.LearningaMahalanobisDistance-BasedDynamicTimeWarpingMeasureforMultivariateTimeSeriesClassification[J].IEEETransactionsonCybernetics,2016,46(6):1363-1374.)。另外,AbdullahMueen在2017年针对在稀疏时间序列数据上使用动态时间弯曲方法效率非常低的特点,提出了AWarp度量方法(MueenA,ChavoshiN,AbuelrubN,etal.FastWarpingDistanceforSparseTimeSeries[C]//IEEEInternationalConferenceonDataMining.IEEE,2017.)。BoghratiReihance提出了会话水平的语法相似性度量(ConversationlevelSyntaxSimilarityMetric,CSSM)(BoghratiR,HooverJ,JohnsonKM,etal.Conversationlevelsyntaxsimilaritymetric[J].BehaviorResearchMethods,2017.)。马氏距离是经常使用的时序数据相似性度量方法,但是单独使用的话只能应用于维度相同的时序数据。但是语音时序数据的长度并不相同,而且由于外部因素影响,语音时序数据可能在时间轴上产生偏移和伸缩。动态时间弯曲(DynamicTimeWraping,DTW)是目前可以比较好的解决时序数据的偏移和伸缩的方法,而且该方法动态时间弯曲也适用于长度不同的时序数据。基于马氏距离的动态时间弯曲算法(MD-DTW)是目前非常流行的,该方法使用马氏距离来计算时序数据的局部距离,再使用动态时间弯曲来计算时序数据的全局距离;虽然MD-DTW方法引入马氏距离后使得动态时间弯曲在计算局部距离的过程得到了优化,但是在计算局部距离时,马氏距离仅仅考虑的是数据内部变量与变量的关系,对于两个变量整体的相关性缺乏考虑,导致相似性度量结果不够准确,进而影响分析结果。度量学习(metriclearning)可以根据指定的分类或聚类任务,从训练集样本空间学习出一个优秀的距离度量参数,从而更加准确快速的表示测试机样本的相似性度量。常见的度量学习方法有基于概率的全局度量学习方法(ProbabilisticglobalDistancemetriclearning,PGDM)(XingEP,NgAY,JordanMI,etal.DistanceMetricLearningwithApplicationtoClusteringwithSide-Information.[C]//InternationalConferenceonNeuralInformationProcessingSystems.MITPress,2002.)、信息理论在线度量学习方法(InformationTheoreticMetricLearning,ITML)(DavisJV,KulisB,JainP,etal.Information-theoreticmetriclearning[C]//Icml07:InternationalConferenceonMachineLearning.2007.)、基于大间隔理论的度量学习方法(LargeMarginNearestNeighbor,LMNN)(WeinbergerKQ,SaulLK.DistanceMetricLearningforLargeMarginNearestNeighborClassification[M].JMLR.org,2009.10(1):207-244.)等;但是传统度量学习算法一般都只能直接应用于单变量时序数据的数据分析任务,因此也不能直接运用于语音时序数据的相似性度量。
技术实现思路
本专利技术为解决现有语音时序数据相似性度量不准确的问题,提供了基于度量学习的语音时序数据相似性度量方法。本专利技术所述基于度量学习的语音时序数据相似性度量方法,通过以下技术方案实现:步骤一、获取语音时序数据;步骤二、结合马氏距离和斯皮尔曼线性相关性系数计算语音时序数据的局部距离,然后使用动态时间弯曲算法得到动态时间弯曲距离的表达式;步骤三、根据PGDM度量学习框架建立以马氏矩阵为参数的损失函数;步骤四、求解损失函数计算出针对当前训练集样本的马氏矩阵;步骤五、将步骤四中求得的马氏矩阵代入动态时间弯曲距离的表达式,得到每两个语音时序数据样本的相似性度量。作为对上述技术方案的进一步阐述:进一步的,步骤二中所述语音时序数据的局部距离具体为:Dlocal(Xi,Yj)=DM(Xi,Yj)/1+ρ(Xi,Yj)(1)其中,Dlocal(Xi,Yj)为局部距离;DM(Xi.Yj)为马氏距离,ρ(Xi,Yj)为斯皮尔曼线性相关性系数,Xi、Yj分别为两个时序数据分别在i、j两个时刻的向量。进一步的,步骤二中所述动态时间弯曲距离的表达式为:其中,DTW(T1,T2)为动态时间弯曲距离;上标T表示转置,k=1,2,…,t;t表示表示动态时间弯曲(DTW规整)后的最优路径长度;时序数据T1={X1,X2,...,Xm1},时序数据T2={Y1,Y2,...,Ym2},Xi、Yj每个时刻记录的变量个数均n,M表示马氏矩阵。进一步的,步骤二中所述得到动态时间弯曲距离的表达式的具体过程包括:步骤二一、根据局部距离计算动态时间弯曲的最优路径:r(i,j)=Dlocal(Xi,Yj)+min{r(i-1,j-1),r(i-1,j),r(i,j-1)}(3)其中,r(i,j)表示从动态时间弯曲的距离成本矩阵的起始点(1,1)到(i,j)的累积最小距离;步骤二二、根据动态时间弯曲的最优路径,两个时序数据T1和T2能够扩展为长度为t的新的时序数据和表示为:其中,为在k时刻的数据向量、为在k时刻的数据向量;分别为T1、T2的动态规划路径;步骤二三、则多变量时间序列数据T1和T2的动态时间弯曲距离DTW(T1,T2)能够表示为:进一步的,步骤三中所述以马氏矩阵为参数的损本文档来自技高网
...

【技术保护点】
1.基于度量学习的语音时序数据相似性度量方法,其特征在于,具体包括以下步骤:步骤一、获取语音时序数据;步骤二、结合马氏距离和斯皮尔曼线性相关性系数计算语音时序数据的局部距离,然后使用动态时间弯曲算法得到动态时间弯曲距离的表达式;步骤三、根据PGDM度量学习框架建立以马氏矩阵为参数的损失函数;步骤四、求解损失函数计算出针对当前训练集样本的马氏矩阵;步骤五、将步骤四中求得的马氏矩阵代入动态时间弯曲距离的表达式,得到每两个语音时序数据样本的相似性度量。

【技术特征摘要】
1.基于度量学习的语音时序数据相似性度量方法,其特征在于,具体包括以下步骤:步骤一、获取语音时序数据;步骤二、结合马氏距离和斯皮尔曼线性相关性系数计算语音时序数据的局部距离,然后使用动态时间弯曲算法得到动态时间弯曲距离的表达式;步骤三、根据PGDM度量学习框架建立以马氏矩阵为参数的损失函数;步骤四、求解损失函数计算出针对当前训练集样本的马氏矩阵;步骤五、将步骤四中求得的马氏矩阵代入动态时间弯曲距离的表达式,得到每两个语音时序数据样本的相似性度量。2.根据权利要求1所述基于度量学习的语音时序数据相似性度量方法,其特征在于,步骤二中所述语音时序数据的局部距离具体为:Dlocal(Xi,Yj)=DM(Xi,Yj)/1+ρ(Xi,Yj)(1)其中,Dlocal(Xi,Yj)为局部距离;DM(Xi.Yj)为马氏距离,ρ(Xi,Yj)为斯皮尔曼线性相关性系数,Xi、Yj分别为两个时序数据分别在i、j两个时刻的向量。3.根据权利要求1或2所述基于度量学习的语音时序数据相似性度量方法,其特征在于,步骤二中所述动态时间弯曲距离的表达式为:其中,DTW(T1,T2)为动态时间弯曲距离;上标T表示转置,k=1,2,…,t;t表示表示动态时间弯曲(DTW规整)后的最优路径长度;时序数据T1={X1,X2,...,Xm1},时序数据T2={Y1,Y2,...,Ym2},Xi、Yj每个时刻记录的变量个数均n,M表示马氏矩阵。4.根据权利要求3所述基于度量学习的语音...

【专利技术属性】
技术研发人员:王念滨刘鹏张毅王红滨周连科张海彬崔琎
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1