当前位置: 首页 > 专利查询>西门子公司专利>正文

在语言识别中通过计算机来确定至少两个单词的序列出现概率的方法技术

技术编号:3047500 阅读:271 留言:0更新日期:2012-04-11 18:40
为了改善自动语言识别系统的识别率,采用了统计的语言模型。利用所说的方法利用小文本数量或完全不用文本来构造语言模型是可行的。语言类别被构造并且该语言模型,也就是单词序列的α-优先的概率,是以文本的语法结构为基础并且依赖于文本的词汇表来计算得出。于是单词和语言学类别的概率被确定。除了上述应用范围的语言模型的重新构造以外本方法同样包含了一个可能性用于使已经存在的语言模型适应于新的应用范围。(*该技术在2018年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及了一个在语言识别时通过计算机来确定至少两个单词的序列出现概率的方法。用于语言识别的方法由[1]被熟知。在这里所描述的由至少一个单词组成的序列的适用性通常是作为单词识别的组成部分。该适用性的大小就是概率。一个统计上的语言模型由[2]被熟知。单词序列W的概率P(W)在语言识别的范围内具有如下特征,首先是较大的词汇量,一般是一个(统计上的)语言模型。该概率P(W)(也就是说,单词序列概率)通过N-Gramm-语言模型PN(W)被近似得出pN(w)=Σi=0np(wi|wi-1,wi-2,...,wi-N+1),---(0-1)]]>这里Wi 是序列W的第i个单词(i=1...n)n 是序列W的单词Wi的数目对于N=2由等式(0-1)得出所说的双语法(Bigramme)。此外下面是熟知的,对于语言识别,首先在商业环境中,采用了一个在词汇上有所限制的应用领域(范围)。不同范围的文本不是仅仅由于其各自的词汇表,而是由于其各自的句子构造而有不同。对于一个特殊领域的语言模型练习必须有相应大的文本数量(文本材料,文本文献),然而在实践中只有很少的几个或只有利用巨大的费用才能获得。语言学的专业词典由[4]被了解。这里涉及了一个用于借助查找程序来查阅语言学特性的由计算机控制的一种语言的尽可能多的单词编排。对于这种单词记录来说(所谓的单词完整形式)一个对于这种单词完整形式非常重要的语言学特征以及合适的分布,也就是说这种语言学的值,可以被得出。由[3]可以知道,采用了语言学的分类。一个句子的单词可以根据不同的方式被分配语言学的标志以及语言学的值。在表1中举例来说不同的语言学标志和附属的值被描述(其他例子在[3]中被给出)。表1对于语言学特征和语言学单词的例子。 根据语言学特征(f1,...fm)(0-2)以及根据语言学的值(V11...V1j)...(Vm1...Vmj) (0-3)每个单词被分配至少一个语言学类别,这里存在如下的映射准则F的应用(C1,...Ck)=F((f1,v11,...,v1j)...(fm,vm1,...vmj)) (0-4)这里fm 语言学标志m 语言学标志的数目Vm1...Vmj 语言学标志fm的语言学数值j 语言学数值的数目Ci 语言学的类别i=1...kk 语言学类别的数目f 语言学标志以及语言学数值在语言学分类上的映射准则(分类器)为了说明语言学的类别,语言学标志(英语feature),语言学值(英语value)以及分类-双语法-概率一个例子被如下解释。从这个德语句子开始“der Bundestag setzt seine Debatte fort”该冠词“der“(也就是说第一个单词)在德语中被划分为六个语言学的类别(下面仅称为类别),这里这个类别根据单复数,属性以及格而不同。下表2阐明了这种关系表2单词“der“的类别Ci 对于德语的名词“Bundestag“(上面例句中的第二个单词)产生类似的表3表3单词“Bundestag“的类别Ci 在这个例子中仅仅根据类别-双语法,也就是用于语言学类别的双语法,产生类别C1,由类别C7描述了相关例句的类型,单复数,格以及属性的正确组合。如果实际发生的类别-双语法的频率利用上面给出的文本被确定,则C1-C7对于上面提到的类别-双语法有多次出现,因为这种组合在德语语言中经常出现,而其他类别-双语法,例如组合C2-C8在德语语言中由于不同的Geni而不被允许。利用由这种方式获得的频率来求取得到的类别-双语法概率相应较高(当多次出现时)或者较低(如果不允许)。本专利技术的任务是,给出一个在语言识别中确定至少一个单词的序列出现概率的方法,这里确定了一个由很少的文本材料构成的领域的语言模型。这里需要说明,语言模型的确定明确包含了改编当前语言模型而产生的模型。该任务依照权利要求1的特征被解决。依照本专利技术给出了在语言识别中通过计算机来确定至少两个单词的序列出现频率的方法。一种语言给出了语言学的类别(C1,...,Ck)(1)按照公式得出(C1,...,Ck)=F((f1,v11,...,v1j)...(fm,vm1,...,vmj)) (2)在这里fm 表示语言学的标志m 表示语言学标志的数目Vm1...Vmj 表示语言学标志fm的语言学数值j 表示语言学数值的数目Ci 表示语言学类别i=1...Kk 表示语言学类别的数目F 表示根据语言学类别由语言学标志和语言学数值构成的映射准则。这里一个单词至少被分配了一个语言类别。至少两个单词的序列出现的概率P(W)由双语法的应用来获得p(w)≈Πi=1nΣCiΣCi-1p(wi|Ci)×p(Ci|Ci-1)×p(Ci-1|wi-1)---(3)]]>这里W 至少两个单词的序列wi 序列W的第i个单词(i=1...n)n 序列W的单词wi的数目Ci 语言类别,该类别属于单词wiCi-1 语言类别,该类别属于单词wi-1∑Ci所有语言类别的总和,该总和属于单词wip(wi|ci)相应的单词概率p(ci|ci-1)双语法的概率(也就是类别-双语法-概率)p(ci-1|wi-1)相应的类别概率这里要说明的是,数据项Ci被联系到至少一个语言类别,该语言类别被分配给来自于单词序列W的单词wi。这相应的同样适用于数据项Ci-1。举例来说对于类别-双语法-概率涉及了在一定条件下属于第一语言学类别的单词wi的这个概率,该概率,属于第二语言学类别的前述单词wi-1(见这里引入的例子和解释)。概率P(wi|ci)和P(ci|ci-1),可以由文本汇编,也就是由带有预设范围的预先给定的文本来确定,这种由等式(3)引入的概率得出了一个所谓的基本语言模型。语言模型,这种模型以语言学类别为基础,特别对于一个改编来说提供了明确的优点。预先给定的方法采用了包含在该语言模型中的语言学特性。其他的构造在于,对于一个新的文本借助于预先确定的基本语言模型该概率p(Ci|Ci-1)被引入到该新文本的基本语言模型中。基本语言模型的类别-双语法的概率(见[3]以及引论中的解释)一方面描述了一个练习文本的语法结构同时另一方面依赖于词汇表。如果由下面开始,相似文本结构(语法的结构)的新领域就象基本语言模型的最初练习文本,则根据目标来说,类别-双语法的概率P(Ci|Ci-1)利用基本语言模型被没有改变的引用。新领域的词汇表,针对这个领域确定了一个语言模型,借助于预先给定的语言学词典并且采用一个分类器F被按照等式(2)处理。对于每一个来自该文本的新单词自动的被确定至少一个语言学类别。语言学类别,语言学标志和语言学数值的详细解释的描述见[3],语言学词典见[4]和/或序言。其他的另外构造在于,根据至少一个下述的可能性确定概率P(wi|ci)a)借助于文本确定概率P(wi|ci);b)借助前述的概率来确定单词wi的概率P(wi|ci);c)采用单词列表确定概略P(wi|ci)。附加的其他构造是,借助算出的概率P(wi|ci)来适应基本语言模型。该模型如下优先实现,这个已经算本文档来自技高网...

【技术保护点】
在语言识别中通过计算机来确定至少两个单词的序列出现的概率的方法, a)其中一语言含有语言学类别: (C1,…Ck)=F((f1,v11,…v1j)…(fm,vm1,…vmj)), 这里表示为 fm 语言学的标志 m 语言学标志的数目 Vm1…Vmj 语言学标志fm的语言学数值 j 语言学数值的数目 C1…Ck 语言学类别i=1…K k 语言学类别的数目 F 根据语言学类别由语言学标志和语言学数值构成的映射准则 b)其中一个单词至少被分配了一个语言学类别; c)其中至少两个单词的序列出现的概率通过如下公式被确定: *** 这里 P(w) 至少两个单词的序列出现的概率 W 至少两个单词的序列 wi 序列W的第i个单词(i=1…n) n 序列W的单词wi的数目 Ci 语言类别,该类别属于单词wi Ci-1 语言类别,该类别属于单词wi-1 ∑↓[Ci] 所有语言类别的总和,该总和属于单词wi p(wi|ci) 相应的单词概率 p(ci|ci-1) 双语法的概率(也就是:类别-双语法,双语法-概率) p(ci-1|wi-1) 相应的类别概率。...

【技术特征摘要】
【国外来华专利技术】DE 1997-9-17 19740911.31.在语言识别中通过计算机来确定至少两个单词的序列出现的概率的方法,a)其中一语言含有语言学类别(C1,...Ck)=F((f1,v11,...v1j)...(fm,vm1,...vmj)),这里表示为fm 语言学的标志m 语言学标志的数目Vm1...Vmj 语言学标志fm的语言学数值j 语言学数值的数目C1...Ck语言学类别i=1...Kk 语言学类别的数目F 根据语言学类别由语言学标志和语言学数值构成的映射准则b)其中一个单词至少被分配了一个语言学类别;c)其中至少两个单词的序列出现的概率通过如下公式被确定p(w)≈Πi=1nΣCiΣCi-1p(wi|Ci)×p(Ci|Ci-1)×p(Ci-1|wi-1)]]>这里P(w) 至少两个单词的序列出现的概率W 至少两个单词的序列wi 序列W的第i个单词(i=1...n)n 序列W的单词wi的数目Ci 语言类别,该类别属于单词wiCi-1 语言类别,该类别属于单词wi-1∑Ci所有语言类别的总和,该总和属于单词wip(wi|ci) 相应的单词概率p(ci|ci...

【专利技术属性】
技术研发人员:P维特舍尔H赫格
申请(专利权)人:西门子公司
类型:发明
国别省市:DE[德国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1