根据书写文本进行基于可缩放神经网络的语言识别制造技术

技术编号:3046150 阅读:198 留言:0更新日期:2012-04-11 18:40
一种根据书写文本执行语言识别的方法,其中采用基于神经网络(20)的语言识别系统来在多种语言中识别字母字符串的语言。利用标准字母字符(22)集,将该字符串映射成映射字母字符串(10),以使NN-LID(20)系统可以基于标准集(22)确定该映射字符串为所述多种语言之一的概率。所述标准集的字符是从语言相关集的字母字符中选择的。还根据该语言相关集,利用评分系统(30)来确定所述字符串属于各语言的概率。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术总体上涉及一种用于基于给定的一个或多个单词如移动设备电话簿中的名称来识别语言的方法和系统,以及涉及一种用于语音驱动名称拨号或命令控制应用的多语言语音识别系统。
技术介绍
移动电话中的电话簿或联系人列表可能含有以不同语言书写的联系人名称。例如,诸如“Smith”、“Poulenc”、“Szabolcs”、“Mishima”和“Maalismaa”等名称可能分别是英文名、法文名、匈牙利文名、日文名和芬兰土语名。识别电话簿中的联系人属于哪种语族或语言是很有利或必要的。目前,自动语音识别(ASR)技术已经应用于移动电话和其它手持通信设备。发言者训练的名称拨号器可能是最广泛应用的ASR应用之一。在发言者训练的名称拨号器中,用户必须训练用于识别的模型,即与发言者相关的名称拨号(SDND)。依靠更高级技术的应用无需用户训练任何识别模型。而是基于多语言单词的表音法自动生成识别模型。基于多语言单词的表音法对发音进行建模的技术应用于例如与多语言发言者无关的名称拨号(ML-SIND)系统中,如Viikki等人所公开的那样,参见“移动通信系统中与发言者和语言无关的语音识别”(″Speaker-and Language-Independent SpeechRecognition in Mobile Communication Systems″,in Proceedings ofInternational Conference on Acoustics,Speech,and Signal Processing,Salt Lake City,Utah,USA 2002)。因为全球化及移动电话市场和未来应用的国际化特性,对多语言语音识别系统的需求迅速增长。自动语言识别是采用动态单词表的多语言系统的主要部分。一般来说,多语言语音识别引擎由三个关键模块构成自动语言识别(LID)模块、在线语言特定的文本-音素建模(TTP)模块和多语言声音建模模块,如附图说明图1所示。本专利技术涉及第一个模块。当用户向现用单词表添加新单词或单词集时,首先由LID模块为每个单词指定语言标记。基于这些语言标记,应用适当的语言特定的TTP模块,以便生成与词汇项的书写形式相关联的多语言音素序列。最后,根据标音法级联多语言声模型构造每个词汇输入的识别模型。自动LID可以分为两类基于语音的LID和基于文本的LID,即根据语音或书写文本进行语言识别。大多数基于语音的LID方法采用音位结构学方法,其中首先采用标准语音识别方法由语音信号识别出与说话相关的音素。然后通过语言特定的统计模型对这些音素序列重新评分。例如Schulze(EP2014276 A2)中公开了基于n元语法和口语单词信息的自动语言识别。通过假定语言识别可以通过音素序列图案的特征来鉴别,对于正确的语言,重新评分将会给出最高评分。根据文本的语言识别通常通过收集字母在其它字母上下文中的语言特定的n元语法统计数字来解决。这种方法已在Schmitt(美国专利号5062143)中公开。虽然基于n元语法的方法对于输入文本量相当大(例如10个单词或更多)的情况效果非常好,但对于非常短的文本,则往往失效。这在由常见单词收集n元语法,随后将其应用于识别固有名称的语言标记时尤其正确。固有名称与常见单词相比具有非常不规则的字素统计信息,因为它们常常源于不同的语言。对于短文本段,用于LID的其它方法可能会更合适。例如Kuhn等人(美国专利号6016471)公开了一种采用判决树来生成拼写单词的多种发音并对其进行评分的方法和装置。判决树已经成功应用于文本-音素映射和语言识别。与神经网络法相似,可以采用判决树来确定单词中每个字母的语言标记。与神经网络法不同的是,字母表中的每个不同字符均有一个判决树。虽然基于判决树的LID对已训练的集合而言效果非常好,但对确认集(validation set)而言,达不到同样的效果。而且,基于判决树的LID需要更多的存储空间。已经成功应用于文本-音素映射任务的简单神经网络体系结构是多层感知器(MLP)。因为TTP和LID是相似的任务,所以此体系结构同样适用于LID。MLP由安排的多层单元(神经)构成,以便信息从网络输入层流到网络输出层。基本的基于神经的LID模型是标准的两层MLP,如图2所示。在MLP网络中,字母以顺序方式一次呈现一个,网络给出每个呈现字母的语言后验概率估计。为了将字形上下文纳入考虑,还可以将所考虑字母两侧的字母用作网络的输入。因此,将一个字母窗口作为输入提供给神经网络。图2显示了一个典型的MLP,其上下文大小为当前字母l0的两侧各具有四个字母l-4...l4。中间字母l0是对应于网络输出的字母。因此,该MLP的输出是给定上下文l-4...l4中最中间字母l0的估计语言概率。在该字符集合中定义了一个空字母,此空字母用于表示单词中第一个字母左边的字母和最后一个字母右边的字母。因为神经网络输入单元是连续取值的,所以需要将输入窗口中的字母转换为某些数值形式的量或表示。表I显示了表示用于语言识别的字母表的正交码本的一个实例。表I中的最后一行是空字母的代码。该正交码的大小与字母集中的字母数相等。正交编码方案的一个重要特性是,它没有在不同字母之间引入任何关联性。 表1正交字母编码方案除表I所示的正交字母编码方案之外,也可以采用其它方法。例如,可以采用自组织码本,如Jensen和Riis所著论文“用于文本-音素神经网络模型的自组织字母码本”(″Self-organizing LetterCode-book for Text-to-phoneme Neural Network Model″,in Proceedingsof International Conference on Spoken Language Processing,Beijing,China,2000)中所述那样。当采用自组织码本时,该字母编码方案的编码方法是基于MLP的训练数据来构建的。采用自组织码本,可以减少MLP的输入单元数,由此减少存储网络参数所需的存储容量。一般来说,MN-LID模型所需的以字节计的存储容量直接与下列量成比例Mems=(2*ContS+1)×AlphaS×HiddenU+(HiddenU×LangS)(1)其中MemS、ContS、AlphaS,HiddenU和LangS分别表示LID的存储容量、上下文大小、字母集的大小、神经网络中隐藏单元的数量和LID支持的语言数量。对输入窗口的字母进行编码,并将编码的输入馈送到神经网络。神经网络的输出单元对应于语言。在输出层上应用Softmax归一化,输出单元的值是对应语言的后验概率。Softmax归一化确保网络输出在的范围内,根据如下公式所有网络输出之和等于1Pi=eyiΣj=1Ceyj]]>在上述公式中,yi和Pi表示softmax归一化前后的第i个输出值。C是输出层中的单元数量,表示类或目标语言的数量。用softmax归一化的神经网络输出将在针对N个分类之一训练且该网络足够复杂并训练到全局最小值时逼近类后验概率(class posterior probability)。然后对每个字母计算语言概率。在计算概率之后,通过将该本文档来自技高网...

【技术保护点】
一种基于自动语言识别系统在多种语言中识别字母字符串的语言的方法,其中所述多种语言中的每种语言具有各自的字母字符集,所述方法的特征在于:将所述字母字符串映射到从参考字母字符集中选择的映射字母字符串;获得表示所述映射字母字符串属于所述多种语言中各种语言的概率的第一值;获得表示所述字符串中的字母字符在所述各字母字符集中的匹配情况的第二值;以及基于所述第一和第二值确定所述字符串的语言。

【技术特征摘要】
US 2002-10-22 10/279,7471.一种基于自动语言识别系统在多种语言中识别字母字符串的语言的方法,其中所述多种语言中的每种语言具有各自的字母字符集,所述方法的特征在于将所述字母字符串映射到从参考字母字符集中选择的映射字母字符串;获得表示所述映射字母字符串属于所述多种语言中各种语言的概率的第一值;获得表示所述字符串中的字母字符在所述各字母字符集中的匹配情况的第二值;以及基于所述第一和第二值确定所述字符串的语言。2.如权利要求1所示的方法,其特征在于还包括如下步骤所述参考字母字符集中的字母字符的数量少于所述所有各字母字符集的并集。3.如权利要求1所述的方法,其特征在于所述第一值是基于所述参考字母字符集获得的。4.如权利要求3所述的方法,其特征在于所述参考字母字符集包括最小的标准字母字符集,使得所述多种语言中每种语言各自的字母字符集中的每个字母字符可以唯一地映射到所述标准字母字符之一。5.如权利要求3所述的方法,其特征在于所述参考字母字符集由最小的标准字母字符集和空符号构成,使得所述多种语言中每种语言各自的字母字符集中的每个字母字符可以唯一地映射到所述标准字母字符之一。6.如权利要求5所述的方法,其特征在于所述映射字符串中的字母字符的数量等于所述字符串中的字母字符的数量。7.如权利要求4所述的方法,其特征在于所述参考字母字符集包括所述最小的标准字母字符集和与所述标准字母字符不同的至少一个符号,以便至少一个所述各字母字符集中的每个字母字符可以唯一地映射到所述标准字母字符之一和所述至少一个符号的组合。8.如权利要求4所述的方法,其特征在于所述参考字母字符集包括所述最小的标准字母字符集和与所述标准字母字符不同的多个符号,以便至少一个所述各字母字符集中的每个字母字符可以唯一地映射到所述标准字母字符和所述多个符号中所述至少一个符号的组合。9.如权利要求8所述的方法,其特征在于所述符号数量可以根据所述自动语言识别系统的期望性能来调整。10.如权利要求1所述的方法,其特征在于所述自动语言识别系统是包括多个隐藏单元的基于神经网络的系统;以及所述隐藏单元的数量可以根据所述自动语言识别系统的期望性能来调整。11.如权利要求3所述的方法,其特征在于所述自动语言识别系统是基于神经网络的系统,以及所述概率是由所述基于神经网络的系统来计算的。12.如权利要求1所述的方法,其特征在于所述第二值是从指定给所述字符串属于所述多种语言中给定的一种的概率的比例系数获得的。13.如权利要求12所述的方法,其特征在于所述语言是根据所述多种语言中所述第一值和所述第二值的乘积的最大值来确定的。14.一种基于自动语言识别系统在多种语言中识别字母字符串的语言的方法,所述多种语言分类成多种语言组;其中每个组具有各自的字母字符集;所述方法的特征在于将所述字母字符串映射到从参考字母字符集中选择的映射字母字符串,获得表示所述映射字母字符串属...

【专利技术属性】
技术研发人员:J田J索恩陶斯塔
申请(专利权)人:诺基亚有限公司
类型:发明
国别省市:FI[芬兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利