一种基于语种识别系统的语言距离关系的获取方法技术方案

技术编号：14931078 阅读：33 留言：0更新日期：2017-03-31 13:01

本文公开发明专利技术了一种基于语种识别系统的语言距离关系的获取方法。包含语种识别过程和语言关系图生成过程。语种识别过程是指计算机根据未知说话人所讲的一段语音的声波信号来辨认所讲语音的语言种类的过程。语言关系图生成过程是指根据语言之间的识别率判定语言之间距离最终生成语言关系图的过程。本发明专利技术将一种新的语音特征集应用于语种识别系统，并通过GentleAdaBoost算法搭建语种识别系统，利用语种识别系统输出的语种识别率来研究语言之间的距离关系，不仅有效提高了语种识别率，而且取得了和实际基本一致的结果，为语言距离关系的研究提供了一种新的思路。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音信号处理及模式识别领域，尤其涉及一种基于语言识别系统的语言距离关系的获取方法。
技术介绍
有关语种识别的研究始于20世纪70年代，它是一个机器根据未知说话人所讲的一段语音的声波信号来辨认所讲语音的语言种类的过程。随着当前全球各国交流增多，各种语言之间的通信需求增加，这就对语种识别提出了新的挑战，在机器能够懂得语音含义之前，必须识别出使用了哪种语言。与语音识别和说话人识别不同的是，语种识别利用的是语音信号中的语言学信息，而不考虑语音中的字词意思，不考虑说话人的个性。语种识别在信息检索和机器翻译领域都有着很重要的应用，包括自动转换服务、多语种信息检索等。随着信息时代的到来以及互联网的发展，语种识别越来越显现出其应用价值，国际上也一直进行着卓有成效的研究和系统开发。语种识别主要有两种方法，第一种是音位结构学方法，第二种是声学方法。自1996年NIST组织语种识别系统评测开始，MIT林肯实验室提交的基于音素识别和语言语言模型的系统：PRLM(PhoneRecognitionandLanguageModeling)、PPRLM(ParallelPRLM)和PPR(ParallelPhoneRecognition)均取得了突出的识别性能。音位结构学方法对信道和噪声的鲁棒性好，但是存在着较为明显的缺陷：需要专业的语言学知识以建立合适的各种语种特点的音素集合；需要有大量人工标记的语料来训练音素识别器；庞...

【技术保护点】
一种基于语种识别系统的语言距离关系的获取方法，其特征在于，包含语种识别过程和语言关系图生成过程；所述语种识别过程包括以下步骤：(1)训练过程，该步骤包括以下子步骤：(1.1)获取语音样本特征：通过OpenEar工具箱里的底层特征提取模块(Low Level Descriptors)提取训练集语音信号的基本声学特征，然后对这些基本声学特征进行统计分析，将得到的统计值以及统计值的一阶和二阶差分值构成一个维数是6552维的特征向量，并将该特征向量归一化到[0,1]区间；(1.2)初始化训练集的权值分布Dt(i)＝1/m，其中，t是迭代次数，Dt是第t次迭代过程中训练集的权值分布，i＝1,2,...,m，m是训练集的样本个数；(1.3)训练弱分类器ht，包括以下子步骤：(1.3.1)使用权值分布Dt(i)训练弱分类器集h:X→{‑1,1}，其中，h是弱分类器集，X是训练样本的特征向量集，‑1和1表示样本标签；(1.3.2)根据步骤(1.3.1)得到的弱分类器集h，将弱分类器hj代入式(1)中，其中，hj∈h，j＝1,2,...,n，n是弱分类器集h中弱分类器的个数，计算得到hj在训练数据集上的...

【技术特征摘要】
1.一种基于语种识别系统的语言距离关系的获取方法，其特征在于，包含
语种识别过程和语言关系图生成过程；
所述语种识别过程包括以下步骤：
(1)训练过程，该步骤包括以下子步骤：
(1.1)获取语音样本特征：通过OpenEar工具箱里的底层特征提取模块(Low
LevelDescriptors)提取训练集语音信号的基本声学特征，然后对这些基本声学
特征进行统计分析，将得到的统计值...

【专利技术属性】
技术研发人员：胡浩基，孙乐，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人