当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于语种识别系统的语言距离关系的获取方法技术方案

技术编号:14931078 阅读:33 留言:0更新日期:2017-03-31 13:01
本文公开发明专利技术了一种基于语种识别系统的语言距离关系的获取方法。包含语种识别过程和语言关系图生成过程。语种识别过程是指计算机根据未知说话人所讲的一段语音的声波信号来辨认所讲语音的语言种类的过程。语言关系图生成过程是指根据语言之间的识别率判定语言之间距离最终生成语言关系图的过程。本发明专利技术将一种新的语音特征集应用于语种识别系统,并通过GentleAdaBoost算法搭建语种识别系统,利用语种识别系统输出的语种识别率来研究语言之间的距离关系,不仅有效提高了语种识别率,而且取得了和实际基本一致的结果,为语言距离关系的研究提供了一种新的思路。

【技术实现步骤摘要】

本专利技术涉及语音信号处理及模式识别领域,尤其涉及一种基于语言识别系统的语言距离关系的获取方法。
技术介绍
有关语种识别的研究始于20世纪70年代,它是一个机器根据未知说话人所讲的一段语音的声波信号来辨认所讲语音的语言种类的过程。随着当前全球各国交流增多,各种语言之间的通信需求增加,这就对语种识别提出了新的挑战,在机器能够懂得语音含义之前,必须识别出使用了哪种语言。与语音识别和说话人识别不同的是,语种识别利用的是语音信号中的语言学信息,而不考虑语音中的字词意思,不考虑说话人的个性。语种识别在信息检索和机器翻译领域都有着很重要的应用,包括自动转换服务、多语种信息检索等。随着信息时代的到来以及互联网的发展,语种识别越来越显现出其应用价值,国际上也一直进行着卓有成效的研究和系统开发。语种识别主要有两种方法,第一种是音位结构学方法,第二种是声学方法。自1996年NIST组织语种识别系统评测开始,MIT林肯实验室提交的基于音素识别和语言语言模型的系统:PRLM(PhoneRecognitionandLanguageModeling)、PPRLM(ParallelPRLM)和PPR(ParallelPhoneRecognition)均取得了突出的识别性能。音位结构学方法对信道和噪声的鲁棒性好,但是存在着较为明显的缺陷:需要专业的语言学知识以建立合适的各种语种特点的音素集合;需要有大量人工标记的语料来训练音素识别器;庞大的运算量不适合实时系统的开发;系统扩展性差。声学方法由于其简单、易于实现得到了广泛的应用。在声学方法中,输入的语言特征直接采用高斯混合模型(GMM)、支持向量机(SVM)等建模。GMM是一个生成模型,比较依赖于对数据的分布假设,鲁棒性较差;而针对大规模样本,SVM的运算复杂度很高。语言距离关系的研究是语言学的范畴,世界语系的划分基本上是根据语言的某些语音、词汇、语法规则之间的对应关系,而关于语言距离的衡量标准,有很多不同的方法。美国语言学家Swadesh提出了语言年代学(glottochronology),将两种语言所共有的具有共同历史渊源的词汇的百分比作为语言之间的距离度量,BenHamed等人通过两种语言之间的元音系统的对应关系来衡量两种语言的距离。而这些方法均需要较多语言学知识的支撑,实现起来复杂度很高。
技术实现思路
针对目前语言距离关系研究领域内现有技术的不足,提出了一种基于语种识别系统的语言距离关系的获取方法,该方法简单以实现,并且具有很好的鲁棒性,最终生成的语言关系图基本与实际一致。为实现上述技术目的,本专利技术采用的技术方案如下:一种基于语种识别系统的语言距离关系的获取方法,包含语种识别过程和语言关系图生成过程;所述语种识别过程包括以下步骤:(1)训练过程,该步骤包括以下子步骤:(1.1)获取语音样本特征:通过OpenEar工具箱里的底层特征提取模块(LowLevelDescriptors)提取训练集语音信号的基本声学特征,然后对这些基本声学特征进行统计分析,将得到的统计值以及统计值的一阶和二阶差分值构成一个维数是6552维的特征向量,并将该特征向量归一化到[0,1]区间;(1.2)初始化训练集的权值分布Dt(i)=1/m,其中,t是迭代次数,Dt是第t次迭代过程中训练集的权值分布,i=1,2,...,m,m是训练集的样本个数;(1.3)训练弱分类器ht,包括以下子步骤:(1.3.1)使用权值分布Dt(i)训练弱分类器集h:X→{-1,1本文档来自技高网
...

【技术保护点】
一种基于语种识别系统的语言距离关系的获取方法,其特征在于,包含语种识别过程和语言关系图生成过程;所述语种识别过程包括以下步骤:(1)训练过程,该步骤包括以下子步骤:(1.1)获取语音样本特征:通过OpenEar工具箱里的底层特征提取模块(Low Level Descriptors)提取训练集语音信号的基本声学特征,然后对这些基本声学特征进行统计分析,将得到的统计值以及统计值的一阶和二阶差分值构成一个维数是6552维的特征向量,并将该特征向量归一化到[0,1]区间;(1.2)初始化训练集的权值分布Dt(i)=1/m,其中,t是迭代次数,Dt是第t次迭代过程中训练集的权值分布,i=1,2,...,m,m是训练集的样本个数;(1.3)训练弱分类器ht,包括以下子步骤:(1.3.1)使用权值分布Dt(i)训练弱分类器集h:X→{‑1,1},其中,h是弱分类器集,X是训练样本的特征向量集,‑1和1表示样本标签;(1.3.2)根据步骤(1.3.1)得到的弱分类器集h,将弱分类器hj代入式(1)中,其中,hj∈h,j=1,2,...,n,n是弱分类器集h中弱分类器的个数,计算得到hj在训练数据集上的分类误差εj,根据式(2)得到ht,其中ht是分类误差最小时对应的弱分类器;ϵj=Dt(i)Σi=1m[yi≠hj(xi)]---(1)]]>ht=arg minj=1,2,...,nϵj---(2)]]>其中xi∈X是第i个训练样本的特征向量,yi是第i个训练样本的标签,且yi∈{‑1,1};(1.3.3)根据步骤(1.3.2)得到的ht,由式(3)更新训练数据集的权值分布,Dt+1(i)=Dt(i)exp(-yiht(xi))Zt---(3)]]>其中,Dt+1是第t+1次迭代过程中训练集的权值分布,Zt是规范化因子,规范化因子Zt由式(4)得到:Zt=Σi=1mDt(i)exp[-yiht(xi)]---(4)]]>(1.3.4)重复步骤(1.3.1)‑步骤(1.3.3),直到迭代次数t达到最大迭代次数T,T为大于等于100的正整数;(1.4)根据步骤(1.3)得到的弱分类器ht,由式(5)得到最终的强分类器H,H(x)=sign[Σt=1Tht(x)]---(5)]]>(2)识别过程,该步骤包括以下子步骤:(2.1)根据步骤(1.1)得到的归一化到[0,1]区间的特征向量,将该特征向量作为待测语音样本的特征向量xtest;(2.2)根据式(5)计算强分类器H(x)对待测语音样本的特征向量xtest的输出,若输出为正值,则该测试样本属于标签为1的类;若输出为负值,则该测试样本属于标签为‑1的类;语言关系图生成过程包括以下步骤:(1)根据语种识别过程中的步骤(1)得到多类语言中两两语言的强分类器,根据多类语言中两两语言的强分类器计算两两语言的识别率,将两两语言的识别率作为两两语言之间的初始化距离,从而得到多类语言的初始化距离矩阵;(2)根据多类语言的初始化距离矩阵,计算各种语言的坐标,该步骤包括以下子步骤:(2.1)初始化两个集合S1和S2,其中,S1中的元素是语言关系图上坐标未定的语言编号,S2中的元素是坐标已定的语言编号,取S1={1,2,...,m},其中m为语言类别数,(2.2)选择初始化距离矩阵中距离值最小的两种语言,定义其中一种语言的坐标为(0,0),另一种语言的x坐标是这两种语言之间的距离,y坐标为0;假设选定的两种语言编号为1和2,则S1={3,4,...,m},S2={1,2};(2.3)根据初始化距离矩阵中两两语言的距离值,在S1中选择出能够与S2中两个点构成三角形并且三边之和最小的语言,并计算出该语言的坐标,同时更新集合S1,S2;(2.4)在S1中选择能与S2中所有点构成三角形个数最多的语言,如果三角形个数的最大值存在多种语言,那么选择第一种,并根据该语言与S2中的点所构成的三角形,计算出该语言所有可能的坐标,选择使得总距离误差最小的坐标作为该语言最终的坐标;总距离误差Eerror的定义如下:Eerror=Σi=1n|Cc(i)-C(i)|---(6)]]>其中,Cc(i)表示用语言的坐标计算的第i个三角形的周长,C(i)表示用距离矩阵中的距离作为第i个三角形的边长计算出的周长,n表示三角形的个数;更新集合S1,S2;(2.5)重复步骤(2.4),直到(2.6)依次更新S2中每个点的坐标;在更新一个点时,固定其余各点的坐标;通过要更新的点与其余各点构成的三角形,计算出该点所有可能的坐标,并将总距离误差最小的坐标作为该点的新坐标;(2.7)重复步骤(2.6),直到达到最大迭...

【技术特征摘要】
1.一种基于语种识别系统的语言距离关系的获取方法,其特征在于,包含
语种识别过程和语言关系图生成过程;
所述语种识别过程包括以下步骤:
(1)训练过程,该步骤包括以下子步骤:
(1.1)获取语音样本特征:通过OpenEar工具箱里的底层特征提取模块(Low
LevelDescriptors)提取训练集语音信号的基本声学特征,然后对这些基本声学
特征进行统计分析,将得到的统计值...

【专利技术属性】
技术研发人员:胡浩基孙乐
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1