提升个人语音识别率的方法及模块技术

技术编号:3044272 阅读:633 留言:0更新日期:2012-04-11 18:40
本发明专利技术是一种提升个人语音识别率的方法及模块,用于一可携式电子装置,此可携式装置具有一预设的识别模型,此识别模型是由一音素模型所建构,用以对一使用者所发送的至少一指令语音,进行识别,此方法包含下列步骤:建构一特定的文字数据库,与此指令语音所对应的文字相关;撷取此使用者根据此文字数据库所发出的多个语音数据,以建构出一调整参数;以及整合此音素模型及此调整参数,以调适此识别模型。根据上述步骤,使用者可以有效的调整识别模型,以提升个人语音识别率。

【技术实现步骤摘要】

本专利技术有关一种提升个人语音识别率的方法及模块;更详细地说,是关于一种 用于一可携式电子装置的提升个人语音识别率的模块及其方法。
技术介绍
藤着数字化时代的来临,人类与可携式电子化产品之间的互动也越来越频繁, 但现今可携式电子化产品的操控界面已渐渐无法满足使用者的需求。在人类日常生 活中最为自然的沟通方式就是语言,因此若能使人类直接使用语言下指令予可携式 电子化产品,将会使可携式电子化产品的操控界面更易被使用者所接受,使可携式 电子化产品操作上更为方便,并大幅增加可携式电子化产品的附加价值。举例而言,具有语音识别功能的手机,具有一预设的识别模型,此识别模型是 根据一音素模型所建构。而后根据此识别模型,手机可用以对一使用者所发送的至 少一指令语音进行识别。此预设的识别模型与使用者无关,意即使用者无需预录语 音,即可享受语音识别的便利。然而此种识别模型无法顾及特定使用者的语音差异,当使用者的语音与预设的识别模型相差较大时,识别率即会降低。隐藏式马尔可夫模型(Hidden Markov Model,以下简称HMM)为语音识别领 域中常使用的语音模型,用以构成一音素模型。 一个HMM语音模型视每一输入数据 (例如一语音)为一个机率式生成模型。HMM语音模型对于每一个索引(例如字或词) 都有一机率分布,欲査询某一语音为何时,则是通过查询所有索引于此语音发生的 可能性来决定。为了使语音识别的效果更为精准。则需要使用语音数据调整HMM 语音模型,使其能够通过此调适作用以辨认不同使用者的语音讯号。在另一方面,人类所发出的每个语音都是由不同的音素所组成,以中文为例, 每一个字的发音都可由不同的声母或韵母组成,所以每一不同的声母或韵母便可视为不同的音素。音素模型便是以HMM语音模型为基础,针对每一个不同的音素所建 立的模型。为了达到上述以语言下指令的目的,现有的指令语音识别方法,便是以音素模 型组成每一个指令的识别模型。例如打电话给王小明,其中打电话给便可 视为一指令,但每个人说话的声调不同,所以需要使用者针对不同的指令,输入与 其相对应的语音数据以调整其指令识别模型。但此调整是渐进式的,所以使用者便 需重复提供打电话给的语音数据,直到相对应的指令识别模型可以识别使用者 打电话给这个指令为止。上述提升个人语音识别率的方法,皆需要求使用者针对不同指令识别模型逐一 进行调整,亦可能须对同一指令识别模型重复输入多笔语音数据,这对使用者来说 极不方便及亦缺乏效率。综上所述,如何提升调整指令识别模型的效率,让使用者不需要针对不同指 令识别模型逐一进行调整,以节省时间并提升个人语音识别率,这是语音识别厂商 刻正努力的目标。
技术实现思路
本专利技术的一目的在于提供一种提升个人语音识别率的方法,该方法用于一可携 式电子装置,此方法可根据一预先规则将与语音数据相关的音素模型分群,之后每 当使用者提供语音数据,便可调整音素模型,这样也连带调整了由音素模型所组成 的指令识别模型。因此本专利技术可改善现有的指令语音识别方法需要使用者针对不同 的指令识别模型,输入与其相对应的语音数据的缺点。为达上述目的,本专利技术所揭 示的方法,通过撷取使用者所提供的语音数据,建构出调整参数;而后整合音素模 型及调整参数,以调适该识别模型。通过上述步骤,便可调整可携式电子装置内的 识别模型。本专利技术另一 目的在于提供一种提升个人语音识别率的模块,此模块可用于一可 携式电子装置,并执行前述的方法,以改善现有的指令语音识别需要使用者针对不 同的指令识别模型,输入与其相对应的语音数据的缺点。为达上述目的,本专利技术所 揭示的模块包含一识别模型、 一调整参数模型及一整合模块,其中识别模型是由音素模型所组成,调整参数模型是根据使用者所提供的语音数据所建构。而整合模块 用以整合音素模型及调整参数,以调适识别模型。借此,本专利技术可通过使用者调适 技术,改善可携式电子装置中,识别模型对于特定使用者的识别率。在参阅附图及随后描述的实施方式后,所属
具有通常知识者便可了 解本专利技术的其他目的,以及本专利技术的技术手段及实施态样。附图说明图1是本专利技术的方法实施例的流程图;图2是本专利技术的方法实施例的进一步流程图;图3是本专利技术的音素模型群组架构的示意图;以及 图4是本专利技术的模块实施例的示意图。具体实施方式本专利技术的较佳实施例为一种提升个人语音识别率的方法,应用于一具有语音识 别功能的可携式电子装置,在本实施例中为一手机。手机中具有识别系统,包含一 预设的识别模型,此识别模型是根据至少一音素模型所建构,本方法通过整合此音 素模型及一调整参数,以调适该识别模型。而后根据此调适后的识别模型,手机可 提升对一使用者所发送的至少一指令语音的识别率。详细来说,尚未进行调适的预 设识别模型,对于不同使用者皆以相同的识别模型进行语音识别,可视为由一非特 定的音素模型所建构。请参阅图i,首先,执行步骤ioo,建构一特定的文字数据库,在本较佳实施例当中,特定的文字数据库是与使用者可使用的指令语音所对应的文字相关,而不 需要与指令完全相同。举例而言,手机内预设用以操作手机的指令语音为打电话 给、关机等指令,而特定的文字数据库即是根据这些指令语音的特征而建构, 将用以改善手机对特定使用者的语音识别率。因此,此特定的文字数据库可由上述 指令构成,亦可由与上述指令的语音特征有关的其他文字所构成。关于语音特征, 进一步说明于后文。接下来,执行步骤ioi,在使用者根据上述特定文字数据库发出语音时,撷取使用者所发出的多个语音数据中的特征,以建构出一调整参数。最后,执行步骤102整合调整参数及音素模型以调适识别模型。请参阅图2,详细来说,步骤101包含下列步骤执行步骤200由多个语音数 据中撷取特征向量,其中特征向量可为梅尔倒频谱系数(Mel-scale Frequency C印stral Coefficients)、线性预估倒频谱系数(Linear Predictive C印stral Coefficient)、以及倒频谱(C印stral)其中之一或其组合。接下来执行步骤201, 利用被撷取出的特征向量,辅以一音素模型的群组架构,以建构出一调整参数。此 群组架构是根据预设的音素模型所建立,与使用者的语言倾向无关。关于群组架构 的进一步说明请参考图3与后文。详细来说,在步骤201中,识别系统撷取语音数据后,撷取语音数据内的特征 向量,这些特征向量即与使用者个人发音习惯相关,之后识别系统利用此特征向量, 辅以一音素模型的群组架构,以建构出一调整参数。举例而言,可采用最大后机率 估测法(Maxim咖a posteriori estimation, MAP)、最大相似度线性回归法(Maximum Likelihood Linear Regression, MLLR)禾口向量场平滑化(Vector-Field Smoothing, VFS)的综合方式,来达到各种训练声音数据下的最佳调适效果。其中MLLR和VFS 演算法,采用分群的方法来克服机率分布模型的调适数据不足或缺乏的问题,当某 一机率分布模型数据不足时,就可以参考该机率分布模型(例如HMM语音模型)同一群组的其它具有特定关联性的机率分布模型,来调整该机率分布模型,而各机率分 布模型的本文档来自技高网
...

【技术保护点】
一种提升个人语音识别率的方法,用于一可携式电子装置,该可携式装置,具有一预设的识别模型,该识别模型是根据至少一音素模型所建构,以对一使用者所发送的至少一指令语音,进行识别;该方法包含下列步骤:建构一特定的文字数据库,与该指令语音所对应的文字相关;撷取该使用者根据该文字数据库所发出的多个语音数据,以建构出一调整参数;以及 整合该至少一音素模型及该调整参数,以调适该识别模型。

【技术特征摘要】
1.一种提升个人语音识别率的方法,用于一可携式电子装置,该可携式装置,具有一预设的识别模型,该识别模型是根据至少一音素模型所建构,以对一使用者所发送的至少一指令语音,进行识别;该方法包含下列步骤建构一特定的文字数据库,与该指令语音所对应的文字相关;撷取该使用者根据该文字数据库所发出的多个语音数据,以建构出一调整参数;以及整合该至少一音素模型及该调整参数,以调适该识别模型。2. 根据权利要求1所述的方法,其特征在于该建构一调整参数的步骤,是撷取 该多个语音数据的特征向量,并针对该至少一音素模型,建立一群组架构。3. 根据权利要求2所述的方法,其特征在于该建构一调整参数的步骤,是根据 特定关联性的语音,建立该群组架构。4. 根据权利要求2所述的方法,其特征在于该调适识别模...

【专利技术属性】
技术研发人员:徐志文高鸿宗刘进荣何泰轩
申请(专利权)人:赛微科技股份有限公司
类型:发明
国别省市:71[中国|台湾]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利