当前位置: 首页 > 专利查询>清华大学专利>正文

基于稀疏降维的说话人识别方法技术

技术编号:9382485 阅读:166 留言:0更新日期:2013-11-28 00:46
一种基于稀疏降维的说话人识别方法,提取用于训练的语音信号的声学特征作为说话人识别的训练特征,然后通过求解稀疏投影矩阵对用于训练的语音信号的声学特征进行降维,并获得最终稀疏投影矩阵,在完成降维后进行分类器训练,提取待识别的语音信号的声学特征作为说话人识别的待识别特征,利用获得的最终稀疏投影矩阵对待识别的语音信号的声学特征进行稀疏降维处理,最终根据所述分类器训练方法进行分类判决,本发明专利技术通过寻找稀疏降维投影矩阵的解路径实现稀疏降维,使得每个解路径在与其相关的范数参数上获得局部最优,最终实现全局最优,可用于说话人识别、人脸识别、手写体分类、人机交互等多种机器学习领域。

【技术实现步骤摘要】

【技术保护点】
一种基于稀疏降维的说话人识别方法,提取用于训练的语音信号的声学特征作为说话人识别的训练特征,然后通过求解稀疏投影矩阵对用于训练的语音信号的声学特征进行降维,并获得最终稀疏投影矩阵,在完成降维后进行分类器训练,提取待识别的语音信号的声学特征作为说话人识别的待识别特征,利用获得的最终稀疏投影矩阵对待识别的语音信号的声学特征进行稀疏降维处理,最终根据所述分类器训练方法进行分类判决,其特征在于,所述求解稀疏投影矩阵方法如下:首先,对解路径进行初始化,即对公式求解:其中P定义为P=I?D1/2WD?1/2,W为邻接矩阵,D为稀疏水平矩阵,P对应的解x即稀疏投影矩阵,设上式的初始非稀疏解为x0,则有Px0=λx0,其中λ为特征值,并给定初始化拉格朗日乘数η0=?λ,初始化权重μ0=0;假设稀疏投影矩阵x中有n个非零元素,定义主集A为|λx|中的前n个最大非零元素,定义初始从集B为|λx|中除了前n个最大非零元素之外的其他非零元素;然后,通过反复迭代来搜索稀疏降维投影矩阵的最优解路径,具体方法为,在第k次迭代开始时,解路径以当前解xk?1为起点,以步长a沿着▽x=(xk?xk?1)/a的方向前进,权重更新为μk,得到一个满足如下公式的局部最优解xk:(P+ηkI)xk=-μk2∂||xk||1s.t.(xk)Txk=1其中拉格朗日乘数为l1范数||xk||1的偏导,第k次迭代的迭代更新公式如下:xAk=xAk-1+a▿xAxBk=xBk-1+a▿xB其中为主集A在第k次迭代后得到的局部最优解,为主集A在第k?1 次迭代后得到的局部最优解,为主集B在第k次迭代后得到的局部最优解,为主集B在第k?1次迭代后得到的局部最优解,其中sign为符号函数,迭代步长a=min{ai},i=1,2,其中a1=maxxBk▿xBxAk=0a2=maxxAk▿xAxBk=0每一次迭代都以增加主集A的变量个数,同时减少从集B的变量个数为目标,当主集A的某个变量或从集B的某个变量变为零值时该迭代停止;迭代优化过程重复m次,直到xm的基数小于指定的基数,即到达指定的稀疏条件时停止,最终稀疏解为x*=xm,即为最终稀疏降维矩阵。FDA00003520662700016.jpg,FDA00003520662700012.jpg,FDA00003520662700017.jpg,FDA00003520662700014.jpg,FDA00003520662700015.jpg,FDA00003520662700021.jpg,FDA00003520662700022.jpg,FDA00003520662700023.jpg,FDA00003520662700024.jpg...

【技术特征摘要】

【专利技术属性】
技术研发人员:杨毅刘加
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1