在语言识别中通过计算机来确定至少两个单词的序列出现概率的方法技术

技术编号：3047500 阅读：271 留言：0更新日期：2012-04-11 18:40

为了改善自动语言识别系统的识别率，采用了统计的语言模型。利用所说的方法利用小文本数量或完全不用文本来构造语言模型是可行的。语言类别被构造并且该语言模型，也就是单词序列的α－优先的概率，是以文本的语法结构为基础并且依赖于文本的词汇表来计算得出。于是单词和语言学类别的概率被确定。除了上述应用范围的语言模型的重新构造以外本方法同样包含了一个可能性用于使已经存在的语言模型适应于新的应用范围。（*该技术在2018年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及了一个在语言识别时通过计算机来确定至少两个单词的序列出现概率的方法。用于语言识别的方法由[1]被熟知。在这里所描述的由至少一个单词组成的序列的适用性通常是作为单词识别的组成部分。该适用性的大小就是概率。一个统计上的语言模型由[2]被熟知。单词序列W的概率P(W)在语言识别的范围内具有如下特征，首先是较大的词汇量，一般是一个(统计上的)语言模型。该概率P(W)(也就是说，单词序列概率)通过N-Gramm-语言模型PN(W)被近似得出pN(w)=Σi=0np(wi|wi-1,wi-2,...,wi-N+1),---(0-1)]]>这里Wi 是序列W的第i个单词(i＝1...n)n 是序列W的单词Wi的数目对于N＝2由等式(0-1)得出所说的双语法(Bigramme)。此外下面是熟知的，对于语言识别，首先在商业环境中，采用了一个在词汇上有所限制的应用领域(范围)。不同范围的文本不是仅仅由于其各自的词汇表，而是由于其各自的句子构造而有不同。对于一个特殊领域的语言模型练习必须有相应大的文本数量(文本材料，文本文献)，然而在实践中只有很少的几个或只有利用巨大的费用才能获得。语言学的专业词典由[4]被了解。这里涉及了一个用于借助查找程序来查阅语言学特性的由计算机控制的一种语言的尽可能多的单词编排。对于这种单词记录来说(所谓的单词完整形式)一个对于这种单词完整形式非常重要的语言学特征以及合适的分布，也就是说这种语言学的值，可以被得出。由[3]可以知道，采用了语言学的分类。一个句子的单词可以根据不同的方式被分配语言学的标志...

【技术保护点】
在语言识别中通过计算机来确定至少两个单词的序列出现的概率的方法，ａ）其中一语言含有语言学类别：（Ｃ１，…Ｃｋ）＝Ｆ（（ｆ１，ｖ１１，…ｖ１ｊ）…（ｆｍ，ｖｍ１，…ｖｍｊ）），这里表示为ｆｍ语言学的标志ｍ语言学标志的数目Ｖｍ１…Ｖｍｊ语言学标志ｆｍ的语言学数值ｊ语言学数值的数目Ｃ１…Ｃｋ语言学类别ｉ＝１…Ｋｋ语言学类别的数目Ｆ根据语言学类别由语言学标志和语言学数值构成的映射准则ｂ）其中一个单词至少被分配了一个语言学类别；ｃ）其中至少两个单词的序列出现的概率通过如下公式被确定：＊＊＊这里Ｐ（ｗ）至少两个单词的序列出现的概率Ｗ至少两个单词的序列ｗｉ序列Ｗ的第ｉ个单词（ｉ＝１…ｎ）ｎ序列Ｗ的单词ｗｉ的数目Ｃｉ语言类别，该类别属于单词ｗｉＣｉ－１语言类别，该类别属于单词ｗｉ－１ ∑↓［Ｃｉ］所有语言类别的总和，该总和属于单词ｗｉｐ（ｗｉ｜ｃｉ）相应的单词概率 ...

【技术特征摘要】
【国外来华专利技术】DE 1997-9-17 19740911.31.在语言识别中通过计算机来确定至少两个单词的序列出现的概率的方法，a)其中一语言含有语言学类别(C1，...Ck)＝F((f1，v11，...v1j)...(fm，vm1，...vmj))，这里表示为fm 语言学的标志m 语言学标志的数目Vm1...Vmj 语言学标志fm的语言学数值j 语言学数值的数目C1...Ck语言学类别i＝1...Kk 语言学类别的数目F 根据语言学类别由语言学标志和语言学数值构成的映射准则b)其中一个单词至少被分配了一个语言学类别；c)其中至少两个单词的序列出现的概率通过如下公式被确定p(w)≈Πi=1nΣCiΣCi-1p(wi|Ci)×p(Ci|Ci-1)×p(Ci-1|wi-1)]]>这里P(w) 至少两个单词的序列出现的概率W 至少两个单词的序列wi 序列W的第i个单词(i＝1...n)n 序列W的单词wi的数目Ci 语言类别，该类别属于单词wiCi-1 语言类别，该类别属于单词wi-1∑Ci所有语言类别的总和，该总和属于单词wip(wi|ci) 相应的单词概率p(ci|ci...

【专利技术属性】
技术研发人员：P维特舍尔，H赫格，
申请(专利权)人：西门子公司，
类型：发明
国别省市：DE[德国]

全部详细技术资料下载我是这个专利的主人