中文人名自动语音辨识输入方法及系统技术方案

技术编号:3045708 阅读:319 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种中文人名自动语音辨识输入方法,该方法包含:(a)由一使用者输入一第一语音,以描述所欲辨识的一人名,该人名包含多个字符;(b)利用一全人名辨识网络单元,对该第一语音进行辨识,以得到一人名辨识结果;(c)传送该人名辨识结果至一字符确认单元;(d)利用该字符确认单元对该人名辨识结果的各该字符分别进行确认;(e)若于步骤(d)中确认各该字符辨识正确,则输出确认后的该人名辨识结果;(f)若于步骤(d)中确认各该字符其中之一辨识错误,则该使用者以一型态输入一第二语音描述该辨识错误字符;(g)利用对应该型态的一描述辨识单元对该第二语音进行辨识,且将其辨识结果传送至该字符确认单元等。

【技术实现步骤摘要】

本专利技术涉及一种自动语音辨识输入方法及系统,尤其涉及一种中文人名自动语音辨识输入方法及系统
技术介绍
随着自动语音辨识技术日渐成熟,提供使用自动语音辨识技术的自动化程序,用以解决惯常繁琐的例行性工作,便可以达到节省巨额人力支出成本的效果。举例来说,目前全国性的查号台(例如104和105),是使用人工辨识的方式进行人名查询的辨识工作,并无提供自动语音辨识的输入法,而提供104查号台服务的中国电信,则必须使用上千名人力才能应付庞大的查询需求,若能将其服务功能自动化,则不管是节省人力成本方面,甚或是对人力资源做更妥善的运用安排,都能收到显著的成效。现行的中文人名自动语音辨识系统,所采取的方式皆以一个个中文人名作为词组单位训练语言模型,当使用者以语音输入进行人名辨识时,辨识引擎会参考使用中文人名所训练出的语言模型进行比对,待辨识完成后系统即可输出完整的中文人名。然而,此种中文人名自动语音辨识系统却只适用于小量(约几千个人名数据)的中文人名辨识上,一旦遇上大量的人名数据(几万个甚至到几百万个人名数据),辨识成功率就会急遽下降,因此现行的中文人名自动语音辨识系统仅适用于一般公司行号的总机系统,若要应用在全国性的查号系统上,由于使用者的耐心有限,恐怕无法忍受辨识率极低的系统,因此在施行上仍有一定的困难度。因此,申请人鉴于公知技术的缺陷,乃经悉心试验与研究,终于研发出一种中文人名自动语音辨识输入方法及系统。
技术实现思路
本专利技术的主要构想为提供一种中文人名自动语音辨识输入方法,其步骤包含(a)由一使用者输入一第一语音,以描述所欲辨识的一人名,该人名包含多个字符;(b)利用一全人名辨识网络单元(Name Net Recognizer),对该第一语音进行辨识,以得到一人名辨识结果;(c)传送该人名辨识结果至一字符确认单元(Character Confirmation Unit);(d)利用该字符确认单元对该人名辨识结果的各该字符分别进行确认;(e)若于步骤(d)中确认各该字符辨识正确,则输出确认后的该人名辨识结果;(f)若于步骤(d)中确认各该字符其中之一辨识错误,则该使用者以一型态输入一第二语音描述该辨识错误字符;(g)利用对应该型态的一描述辨识单元对该第二语音进行辨识,且将其辨识结果传送至该字符确认单元;以及(h)重复步骤(d)-(g)。根据上述构想,其中步骤(b)还包含下列步骤(b1)获取该第一语音的一特征参数;以及(b2)依据该特征参数,利用该全人名辨识网络单元对该第一语音进行辨识。根据上述构想,其中步骤(b1)还包含下列步骤(b11)对该第一语音进行预处理;以及(b12)获取该第一语音的该特征参数。根据上述构想,其中步骤(b11)还包含下列步骤放大该第一语音信号;对该第一语音信号正规化(normalization);对该第一语音信号进行预强调(pre-emphasis);将该第一语音乘上汉明窗(Hamming Window);以及将该第一语音通过一低通滤波器或一高通滤波器。根据上述构想,其中步骤(b12)还包含下列步骤对该第一语音进行快速傅立叶变换(Fast Fourier Transform,FFT)处理;以及求取该第一语音的梅尔倒频谱参数(Mel-Frequency Cepstrum Coefficients,MFCC)。根据上述构想,其中步骤(d)还包含下列步骤逐一输出相对于各该字符的多个字符假设;以及由该使用者从该多个字符假设中选择正确的各该字符。根据上述构想,其中该输出是以语音播放各该字符假设的一描述词句。根据上述构想,其中该输出是以屏幕显示各该字符假设。根据上述构想,其中该使用者是以语音输入选择。根据上述构想,其中该使用者是以按键输入选择。根据上述构想,其中步骤(g)还包含下列步骤(g1)获取该第二语音的一特征参数;以及(g2)依据该特征参数,利用该描述辨识单元对该第二语音进行辨识。根据上述构想,其中步骤(g1)还包含下列步骤(g11)对该第二语音进行预处理;以及(g12)获取该第二语音的该特征参数。根据上述构想,其中步骤(g11)还包含下列步骤放大该第二语音信号;对该第二语音信号正规化(normalization);对该第二语音信号进行预强调(pre-emphasis);将该第二语音乘上汉明窗(Hamming Window);以及将该第二语音通过一低通滤波器或一高通滤波器。根据上述构想,其中步骤(g12)还包含下列步骤对该第二语音进行快速傅立叶变换(Fast Fourier Transform,FFT)处理;以及求取该第二语音的梅尔倒频谱参数(Mel-Frequency Cepstrum Coefficients,MFCC)。根据上述构想,其中步骤(f)中,该使用者是以一字符词组型态描述该辨识错误字符。根据上述构想,其中对应该字符词组型态的描述辨识单元为一字符描述辨识单元(Character Description Recognizer,CDR)。根据上述构想,其中步骤(f)中,该使用者是以一音节词组方式描述该辨识错误字符。根据上述构想,其中对应该音节词组型态的描述辨识单元为一音节描述辨识单元(Syllable Spelling Recognizer,SSR)。本专利技术的另一构想在于提供一种中文人名自动语音辨识输入系统,其包含一语音输入装置,其用以使一使用者输入一语音,该语音用以描述所欲辨识的一人名,该人名包含多个字符;一全人名辨识网络单元(Name NetRecognizer),其用以辨识该语音而得一人名辨识结果;一字符确认单元(Character Confirmation Unit),用以分别确认该人名辨识结果的各该字符是否正确;一字符描述辨识单元(Character Description Recognizer,CDR),其当该使用者以一字符词组型态描述各该字符时,用以辨识各该字符;一音节描述辨识单元(Syllable Spelling Recognizer,SSR),其当该使用者以一音节词组型态描述各该字符时,用以辨识各该字符;以及一输出装置,用以输出确认后的该人名辨识结果。根据上述构想,其中该全人名辨识网络单元还包含一全人名辨识网络引擎以及一人名字符序列语言模型。根据上述构想,其中该人名字符序列语言模型为根据一基本词汇及一已知人名数据所训练出的语言模型。根据上述构想,其中该基本词汇由408音节所组成。根据上述构想,其中该基本词汇由1300带声调的音节所组成。根据上述构想,其中该基本词汇由408音节及1300带声调的音节所组成。根据上述构想,其中该字符描述辨识单元还包含一字符描述辨识引擎以及一字符描述语言模型。根据上述构想,其中该字符描述语言模型为根据一基本词汇及一运用字符描述的词组数据所训练出的语言模型。根据上述构想,其中该基本词汇由408音节所组成。根据上述构想,其中该基本词汇由1300带声调的音节所组成。根据上述构想,其中该基本词汇由408音节及1300带声调的音节所组成。根据上述构想,其中该音节描述辨识单元还包含一音节描述辨识引擎、一音节描述语言模型以及一音节对应字符表。根据上述构想,其中该音节描述语言模型为根据一基本词汇及一运用音节描述的词组数据所训练出的语言模型。根本文档来自技高网...

【技术保护点】
一种中文人名自动语音辨识输入方法,其步骤包含:(a)由一使用者输入一第一语音,以描述所欲辨识的一人名,该人名包含多个字符;(b)利用一全人名辨识网络单元,对该第一语音进行辨识,以得到一人名辨识结果;(c)传送该人名辨识结果至一字符确认单元;(d)利用该字符确认单元对该人名辨识结果的各该字符分别进行确认;(e)若于步骤(d)中确认各该字符辨识正确,则输出确认后的该人名辨识结果;(f)若于步骤(d)中确认各该字符其中之一辨识错误,则该使用者以一型态输入一第二语音描述该辨识错误字符;(g)利用对应该型态的一描述辨识单元对该第二语音进行辨识,且将其辨识结果传送至该字符确认单元;以及(h)重复步骤(d)-(g)。

【技术特征摘要】
1.一种中文人名自动语音辨识输入方法,其步骤包含(a)由一使用者输入一第一语音,以描述所欲辨识的一人名,该人名包含多个字符;(b)利用一全人名辨识网络单元,对该第一语音进行辨识,以得到一人名辨识结果;(c)传送该人名辨识结果至一字符确认单元;(d)利用该字符确认单元对该人名辨识结果的各该字符分别进行确认;(e)若于步骤(d)中确认各该字符辨识正确,则输出确认后的该人名辨识结果;(f)若于步骤(d)中确认各该字符其中之一辨识错误,则该使用者以一型态输入一第二语音描述该辨识错误字符;(g)利用对应该型态的一描述辨识单元对该第二语音进行辨识,且将其辨识结果传送至该字符确认单元;以及(h)重复步骤(d)-(g)。2.根据权利要求1所述的方法,其中步骤(b)还包含下列步骤(b1)获取该第一语音的一特征参数;以及(b2)依据该特征参数,利用该全人名辨识网络单元对该第一语音进行辨识,其中步骤(b1)可还包含下列步骤(b11)对该第一语音进行预处理;以及(b12)获取该第一语音的该特征参数,其中步骤(b11)可还包含下列步骤放大该第一语音信号;对该第一语音信号正规化;对该第一语音信号进行预强调;将该第一语音乘上汉明窗;以及将该第一语音通过一低通滤波器或一高通滤波器,而其中步骤(b12)可还包含下列步骤对该第一语音进行快速傅立叶变换处理;以及求取该第一语音的梅尔倒频谱参数。3.根据权利要求1所述的方法,其中步骤(d)还包含下列步骤逐一输出相对于各该字符的多个字符假设;以及由该使用者从该多个字符假设中选择正确的各该字符,其中;该输出是以语音播放各该字符假设的一描述词句,或是以屏幕显示各该字符假设;及/或该使用者是以语音输入选择或是以按键输入选择。4.根据权利要求1所述的方法,其中步骤(g)还包含下列步骤(g1)获取该第二语音的一特征参数;以及(g2)依据该特征参数,利用该描述辨识单元对该第二语音进行辨识,其中步骤(g1)还包含下列步骤(g11)对该第二语音进行预处理;以及(g12)获取该第二语音的该特征参数,其中步骤(g11)可还包含下列步骤放大该第二语音信号;对该第二语音信号正规化;对该第二语音信号进行预强调;将该第二语音乘上汉明窗;以及将该第二语音通过一低通滤波器或一高通滤波器,而其中步骤(g12)可还包含下列步骤对该第二语音进行快速傅立叶变换处理;以及求取该第二语音的梅尔倒频谱参数。5.根据权利要求1所述的方法,其中步骤(f)中,该使用者是以一字符词组型态描述该辨识错误字符,其中对应该字符词组型态的描述辨识单元为一字符描述辨识单元。6.根据权利要求1所述的方法,其中步骤(f)中,该使用者是以一音节词组方式描述该辨识错误字符,其中对应该音节词组型态的描述辨识单元为一音节描述辨识单元。7.一种中文人名自动语音辨识输入系统,其包含一语音输入装置,其用以使一使用者输入一语音,该语音用以描述所欲辨识的一人名,该人名包含多个字符;一...

【专利技术属性】
技术研发人员:王瑞璋蔡锦和黄良声沈家麟
申请(专利权)人:台达电子工业股份有限公司
类型:发明
国别省市:71[中国|台湾]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1