中国人名、地名和单位名的语音识别方法技术

技术编号：3047228 阅读：283 留言：0更新日期：2012-04-11 18:40

中国人名、地名和单位名的语音识别方法采用通用汉语语音模型以及以字和词为单位的专用三元概率模型构成语音识别系统进行无词汇限制、无说话人限制的语音输入。针对中国人名识别混淆度大的特点，本发明专利技术提出了一个能给出多个候选字的算法；针对某些应用其人名、地名和单位名是有限的约束条件，提出了一种基于半音节混淆度为基础的整体模糊匹配方法，使识别率进一步得到提高。本发明专利技术可广泛地应用于各种手持式设备的语音输入。（*该技术在2020年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】
涉及在各种数字装置和平台中中国人名、地名和单位名输入等各种应用，属自动语音识别领域，其特征是采用通用汉语语音模型以及以字和词为单位的三元概率模型构成专用语音识别系统进行无词汇限制、无说话人限制的语音输入。针对中国人名和地名识别混淆度大的特点，本专利技术提出了一个多个候选字和候选人名的算法；针对某些应用其人名或地名是有限的具体条件，提出了一种基于半音节或混淆度为基础的整体模糊匹配方法，使系统识别率进一步得到提高。传统上，一般采用整词建模方法进行人名或地名的识别。这种方法是为每一个可能的词条建立语音样板，如附图说明图1所示。当添入一个新词时就需要朗读该词几遍，然后为该词建立一个声学模型或模板作为匹配参考(即整词建模)，在识别时将待识别的语音信号与词表中的各个模板进行对比，找出最相近的那一个，即为识别结果。通常这种建模方式是在特定人条件下进行，即在识别和训练中均只能是同一个讲话人。几乎当前所有的手持式装置都采用该方法进行人名的识别，例如当前手机中普遍具有的语音拨号功能就是典型的例子。从图1可以看出，传统方法词表就是模型(板)库，加一个新词就要对每一词朗读一到三遍，建立模板或模型，识别时进行摸板和模型的一一匹配。这本身限制了它的应用范围，对于词典以外的人名地名就无能为力。这是因为在建立模型时，就是针对这些词条的，对于集外词，根本没有模板，当然不可能正确识别。这种方法的另一个缺点是在大规模词表的条件下，模型增多，用户的训练量也大量增加，系统在识别和存储等方面的资源开销也急增，因而不太可能在对资源要求比较严格的手持式或掌上电脑中进行。例如如果一个模型需要占用10K空间，...

【技术保护点】
一种中国人名、地名和单位名的语音识别方法其特征在于利用大词汇量连续语音识别技术，建立通用的统计语音模型和专用的统计语言模型，并采用有关搜索算法进行最优搜索给出识别中间结果；如为无词汇限制的识别，则通过按照最优序列切分输出多个候选结果；如为有词汇限制的识别，则通过与词汇表的动态相似性匹配，输出候选结果。

【技术特征摘要】
1.一种中国人名、地名和单位名的语音识别方法其特征在于利用大词汇量连续语音识别技术，建立通用的统计语音模型和专用的统计语言模型，并采用有关搜索算法进行最优搜索给出识别中间结果；如为无词汇限制的识别，则通过按照最优序列切分输出多个候选结果；如为有词汇限制的识别，则通过与词汇表的动态相似性匹配，输出候选结果。2.根据权利要求1所述的中国人名、地名和单位名的语音识别方法，其特征在于其中的专用语言模型是在搜集大量中国人名、地名和单位名的基础上，采用大语料库技术统计而得；这种统计的特点在于在分析中国人名和地名的构成特点的基础上，按不同的基本统计单元，分别建立统计模型，用于识别系统之中。3.根据权利要求1，2所述的中国人名、地名和单位名的语音识别方法，其特征在于具体地针对人名识别，建立以字为单位的语言模型；其方法如下1)由于姓与名是比较独立的两部分，所以在统计时把二者分开，以减少这种姓与名之间随机连接所带来的噪声；2)由于姓与名被分成两部分，而姓与名单独两部分的汉字数一般不超过两个，所以采用字的二元模型就足够反映这种统计特性；3)在识别时，需把姓的统计模型和名的统计模型分别建立再进行合并；4)在汉字人名中，姓一定位于第一，作为姓的汉字在人名中的位置分布有很强的统计规律；为了表示这种位置关系，在词表中引入一个虚拟词Wv，把该虚拟词放在每一个名字的前面和后面。4.根据权利要求1、2所述的中国人名、地名和单位名的语音识别方法，其特征在于针对地名和单位名，建立以词或短语为单位的语言模型，根据地名、单位名的特点，将地名、单位名拆分为一系列词，并建立一个地名词典，建立词典的方法是1)词表中含有基本的地名后缀和独立的地名，即尽量将地名、单位名拆分，但保证其有独立的意义，这样既尽可能地减少词表数量，又保持地名的相对完整性；2)地名词典还收录了国标汉字库GB2312，在该字库范围内，可以避免词典外面新词的出现，从而可以充分统计每一种地名组成的规律。5.根据权利要求1所述的中国人名、地名和单位名语音识别方法，其特征在于因为汉语中存在同音字的现象，仅依靠统计语言模型并不能完全解决人名、地名和单位名中同音异字问题，因而开发了多个识别候选结果的获取方法。多候选的获取包括无词汇限制和有词汇限制两种情况，针对不同情况，采用了不同的解决方案。6.根据权利要求1、5所述的中国人名、地名和单位名语音识别，其特征在于在无限词汇限制的条件下，多候选的获得首先按照第一名的识别结果将原始语音切分成单个的音节区间，然后对某个区间(Tn，Tn+1)中的语音按照单音节的假设进行重新识别，在假设前面单字已经确定的情况下，对重新识别后的音节所对应的同音字进行综合打分，按照得分高低给出候选结果。其算法如下1)根据识别结果...

【专利技术属性】
技术研发人员：徐波，张红，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人