语音识别词典制作支持系统、语音识别词典制作支持方法以及语音识别词典制作支持用程序技术方案

技术编号:3048254 阅读:313 留言:0更新日期:2012-04-11 18:40
提供一种语音识别词典制作支持系统,其利用可低成本获得的文本数据,能够有效地制作、更新可降低语音识别错误的语音识别用词典、语言模型。语音识别词典制作支持系统包括识别词典存储部(105)、语言模型存储部(106)和声音模型存储部(107)。虚拟语音识别处理部(102)针对由文本解析部(101)生成的解析完毕文本数据,参照识别词典、语言模型及声音模型,生成虚拟语音识别结果文本数据,并与最初的解析完毕文本数据进行比较。更新处理部(103)能够以降低两文本数据不同之处的方式更新识别词典、语言模型。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及语音识别词典制作支持系统、语音识别词典制作支持方法 及语音识别词典制作支持用程序,特别地,涉及用于制作存储语音识别处 理的构成要素即词汇的语音识别词典、和对字词的排列进行规则化后的语 言模型的语音识别词典制作支持系统、语音识别词典制作支持方法以及语 音识别词典制作支持用程序。
技术介绍
下面对现有技术的语音识别词典制作支持系统的概要进行说明。如图6所示,由文本解析机构201、出现频率计数机构202、更新机构203、背 景词典存储机构204、识别词典存储机构205、及语言模型存储机构206 构成。具有这种结构的现有技术的语音识别词典制作支持系统按照如下方 式工作。即,文本解析机构201从外部接收包含语音识别对象词汇的文本数据, 利用存储于背景词典存储机构204中的单词词典进行语素(morpheme)解 析处理,从而,将文本数据分割成一个一个的单词的系列,赋予其读音文 字列,另外根据需要而赋予其词类标签,将其结果送至出现频率计数机构 202中。出现频率计数机构202从文本解析机构201接收单词系列,针对 各单词对出现频率进行计数,将结果送至更新机构203。更新机构203根 据由出现频率计数机构202接收的单词出现频率,计算出各单词的出现概 率,与存储于该语言模型存储机构206中的单词的出现概率进行对照,修 正存储于后者即语言模型存储机构206中的出现概率,以便接近由前者即 文本数据计算出的出现概率。另外,在出现于文本数据中的单词中,针对 具有一定以上的出现概率值的单词,确认其是否被登录在识别词典存储机构205中存储的识别词典中,未登录时认定该单词为未知语,将该单词和 出现概率分别登录于识别词典存储机构205和语言模型存储机构206中。另外,在上述出现频率计数机构202中,除了单词的出现频率之外, 通常以连续的2个单词或3个单词的出现次数为单位进行计数。另外,在 文本解析机构201的语素解析处理中,为了与错误进行单词的分割和给予 错误的读音的情况相对应,也在更新机构203等中设置修正单词边界、人 工输入读音的界面(参照后述专利文献l等)。现有技术语音识别词典制作支持系统的另外一个例子在专利文献1中 记载。图7是更新专利文献1的语音识别词典制作支持系统后的图,以便 能够与图6对比,由文字列比较机构301、未知语提取机构302、更新机 构303、识别词典存储机构305、和语言模型存储机构306构成,突出特 征在于,不是利用统计手段检测未知语,而是利用修正误识别后的结果。具有这种结构的现有技术的语音识别词典制作支持系统按照如下方 式工作。艮口,文字列比较机构301从外部接收利用未图示的语音识别机构对识 别对象语音进行识别后的结果即识别结果文本数据、和对含于该识别结果 文本数据中的识别错误以人工进行修正后的误识别修正完毕文本数据,按 每一个产生差别的地方,即每一个产生识别错误的地方,以包含识别错误 的形式提取单词或者单词列,并送至未知语提取机构302,其中,上述语 音识别机构包括存储于识别词典存储机构305中的识别词典、和存储于语 言模型存储机构306中的语言模型作为构成要素。未知语提取机构302按 从文字列比较机构301接收到的每一个单词或单词列,确认该单词或单词 列是否登录在存储于识别词典存储机构305中的识别词典中,未登录时, 将该单词或单词列作为新单词登录于识别词典存储机构305中。进一步地, 将登录后的新单词和规定的出现概率也登录于语言模型存储机构306中。另外,在专利文献2 4中,记载了其他的对语音识别词典的未知语 的提取/登录方法。在专利文献2中公开了一种未知语登录装置,能够对含 未知语的文书文件,进行语素解析等来提取单词,将语音识别词典中不存 在的单词在参照背景词典赋予读音和词类后进行登录的未知语登录装置。 另外,在专利文献3、 4中公开有具有上述未知语的词类和发音的推断功能并自动登录未知语的未知语登录装置。另外,在专利文献5中,公开了一种对由互联网站点所广泛收集的网 页的单词的出现频率进行计数,并对单词语音识别词典中的同一读音的单 词中的选择顺序进行更新的方法。另外,在专利文献6中,公开了一种声音模型管理服务器和语言模型 管理服务器,对于语音识别装置,发送在与输入语音进行对照中使用的语 音的模型(声音模型和语言模型),具有定期更新声音模型和语言模型的 功能。另外,作为本专利技术的
技术介绍
,列举专利文献7。专利文献7虽然涉 及语音识别装置,但是记载有涉及来自未登录于背景词典(语素解析词典) 的未知语的音韵列的产生方法的技术。专利文献1: JP特开2002-229585号公报专利文献2: JP特开2003-316376号公报专利文献3: JP特开2004-265440号公报专利文献4: JP特开2002-014693号公报专利文献5: JP特开2005-099741号公报专利文献6: JP特开2002-091477号公报专利文献7: JP特开2004-294542号公报
技术实现思路
采用前者统计手段检测未知语的方式的问题之处在于文本数据收集 需要成本,并且,要挑选用于得到良好结果的文本数据需要高度的技巧。 尤其是,提供类似于识别对象语音的文本数据未必容易。上述类似于识别对象语音指的是关于内容和话题的类似性、以及发 声风格的类似性的两方面。例如,在采用语音识别给出新闻播放的字幕时, 通常准备最近的报纸报道作为文本数据。此时,识别对象语音(新闻报导 员的发音)和报纸报道其话题尽管一致,但是发声风格即说话言词特有的 措词不同。例如,对于新闻报导员的语音为?卞 t t,,风格的句子而言, 报纸报道用t C A 6风格的句子。另外,语音中诸如九一、o— 这样的补白词频繁出现,这一点也是不同的。所以,如果忽视这样的发声风格的差异而制作词典、语言模型,将会产生对说话言词特有的发声风格 不能正确进行语音识别这样的弊病。如上所述,为构建能得到正确的语音识别结果的环境,需要经验丰富 的人特别小心地精挑细选要使用的文本数据,而且,需要花费人工和时间 正确写入识别对象语音的过去的积累,结果就不可避免运用成本的增加。同样,在上述专利文献3、 5、 6中,提案有从互联网及多媒体播放收集文本的方案,但对这些方案当然也能想到,会产生上述与识别对象语 音之间的偏差,在识别结果中也自然地显示出限度。现有技术的第2个问题点在于,在存在音韵类似单词或单词列的情况 下的识别错误没有反映在词典、语言模型中。例如,参见专利文献2 5, 仅考虑文本数据中各个单词出现与否以及出现次数,没有考虑在进行涉及 音韵信息的实际的语音识别处理的情况下是怎样的。某单词是否包含在词 典中必须考虑与词典中的其他单词在音韵上是否不同或不相类似,如果存 在类似的单词,则必须将一方的单词从词典中排除或降低在语言模型中的 优先级(出现概率),在现有技术中,被认为不能否认2重登录的可能性。现有技术的第3个问题在于,要想构建词典、语言模型以便能够正确 地语音识别连接多个单词的复合语不一定容易。即使构成复合语的各个单 词为己经在词典中登录的已知语,如果在用于语音识别的语音模型中的各 单词的连接概率低,则能够正确识别作为单词的总体的复合语的概率也变 低。另本文档来自技高网
...

【技术保护点】
一种语音识别词典制作支持系统,具有: 存储部,存储词典、语言模型及声音模型; 文本解析部,针对文本数据进行语素解析处理; 虚拟语音识别处理部,针对由上述文本解析部所解析的解析完毕文本数据,利用上述词典、语言模型及声音模型生 成虚拟语音识别结果文本数据,并且提取上述解析完毕文本数据和上述虚拟语音识别结果文本数据之间的不同之处;以及 更新处理部,基于上述不同之处,对上述词典或者上述语言模型的至少其中一方进行修正。

【技术特征摘要】
【国外来华专利技术】JP 2006-2-23 046812/20061. 一种语音识别词典制作支持系统,具有存储部,存储词典、语言模型及声音模型;文本解析部,针对文本数据进行语素解析处理;虚拟语音识别处理部,针对由上述文本解析部所解析的解析完毕文本数据,利用上述词典、语言模型及声音模型生成虚拟语音识别结果文本数据,并且提取上述解析完毕文本数据和上述虚拟语音识别结果文本数据之间的不同之处;以及更新处理部,基于上述不同之处,对上述词典或者上述语言模型的至少其中一方进行修正。2. 根据权利要求l所述的语音识别词典制作支持系统,其特征在于, 上述虚拟语音识别处理部从上述解析完毕文本数据中生成以声音参数为要素的特征向量系列,通过虚拟地执行语音识别处理来生成语音识别 结果文本数据。3. 根据权利要求1或2所述的语音识别词典制作支持系统,其特征 在于,上述存储部存储构成识别单位的状态等要素间的距离或类似度表, 上述虚拟语音识别处理部由上述解析完毕文本数据生成上述识别单 位的系列,从上述词典和语言模型中,通过搜索距离总和最小或类似度总 和最大的单词列,生成上述虚拟语音识别结果文本数据。4. 根据权利要求1或2所述的语音识别词典制作支持系统,其特征 在于,上述存储部存储构成识别单位的状态等要素间的距离或类似度表, 上述虚拟语音识别处理部由上述解析完毕文本数据生成上述要素的系列,从上述词典和语言模型中,通过搜索距离总和最小或类似度总和最大的单词列,生成上述虚拟语音识别结果文本数据。5. 根据权利要求1至4中任一项所述的语音识别词典制作支持系统, 其特征在于,上述更新处理部基于上述解析完毕文本数据和上述虚拟语音识别结果文本数据之间的不同之处,在上述词典中追加出现于上述解析完毕文本 数据侧的词句。6....

【专利技术属性】
技术研发人员:越仲孝文
申请(专利权)人:日本电气株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1