【技术实现步骤摘要】
分案说明本申请属于申请日为2009年4月9日的中国专利技术专利申请200980121627.X的分案申请。
本说明书涉及使用经缩放的(scaled)概率来分割词。
技术介绍
n-gram(n元)是n个连续符号(token)—例如词或字符—的序列。n-gram具有级(order),其为在n-gram中的符号的数目。例如,1-gram(或者单gram)包括一个符号;2-gram(或者双gram)包括两个符号。每一个n-gram具有作为n-gram在训练数据中的相对频率的函数来计算的相关联的概率估计。例如,L个符号的字符串被表示为可以如下将概率赋值给字符串 P ( c 1 L ) = Π i = 1 L P ( c i | c 1 i - 1 ) ≈ Π i = 1 L P ...
【技术保护点】
一种方法,包括:接收n‑gram标识词的概率;确定相应n‑gram中的原子单元的数目;根据所述n‑gram中的原子单元的所述数目来标识缩放权重;以及将所述缩放权重应用于所述n‑gram标识词的所述概率来确定所述n‑gram标识词的经缩放的概率。
【技术特征摘要】
2008.04.16 US 12/104,0141.一种方法,包括:
接收n-gram标识词的概率;
确定相应n-gram中的原子单元的数目;
根据所述n-gram中的原子单元的所述数目来标识缩放权重;以及
将所述缩放权重应用于所述n-gram标识词的所述概率来确定所述
n-gram标识词的经缩放的概率。
2.如权利要求1所述的方法,其中所述n-gram标识词的所述经缩
放的概率取决于所述n-gram中的原子单元的所述数目。
3.如权利要求1所述的方法,其中所述n-gram标识词的所述经缩
放的概率是xn,其中x是所述n-gram标识词的所述概率,以及n是所
述n-gram中的原子单元的所述数目。
4.如权利要求1所述的方法,其中所述n-gram标识词的所述经缩
放的概率是x1+k(n-1),其中x是所述n-gram标识词的所述概率,n是所
述n-gram中的原子单元的所述数目,以及k是常量并且0≤k≤1。
5.如权利要求1所述的方法,进一步包括:
接收多个符号;以及
使用所述经缩放的概率来将所述多个符号分割成词。
6.如权利要求1所述的方法,进一步包括:
标识较少级的n-gram,所述较少级的n-gram从所述n-gram取得;
接收与所述较少级的n-gram中的每一个相对应的标识词的概率;
将所述n-gram标识词的所述概率与所述较少级的n-gram的组合
标识词的所述概率进行比较;以及
当较少级的n-gram的组合标识词的概率与所述n-gram标识词的
\t所述概率相差指定阈值量时,修改与所述n-gram标识词的所述概率相
对应的所述缩放权重。
7.如权利要求1所述的方法,进一步包括:
接收n-gram标识词的经缩放的概率;
确定较少级的n-gram标识词的经缩放的概率,所述较少级的
n-gram从所述n-gram取得;以及
当较少级的n-gram的组合标识词的经缩放的概率与所述n-gram
标识词的所述经缩放的概率相差指定阈值量时,从字典移除所述
n-gram。
8.一种系统,包括:
字典,所述字典包括n-gram和每一个n-gram标识词的相应概率;
缩放引擎,所述缩放引擎包括对应于每一个n-gram的缩放权重,
所述缩放权重取决于在每一个n-gram中的原子单元的数目;以及
每一个n-gram标识词的经缩放的概率,其中确定每一个n-gram
标识词的所述经缩放的概率包括将缩放权重应用于每一个n-gram标识
词的相应概率。
9.如权利要求8所述的系统,其中所述n-gram标识词的所述经缩
放的概率取决于所述n-gram中的原子单元的所述数目。
10.如权利要求8所述的系统,其中所述n-gram标识词的所述经
缩放的概率是xn,其中x是所述n-gram标识词的所述概率,以及n是
所述n-gram中的原子单元的所述数目。
11.如权利要求8所述的系统,其中所述n-gram标识词的所述经
缩放的概率是x1+k(n-1),其中x是所述n-gram标识词的所述概率,n是
所述n-gram中的原子单元的所述数目,以及k是常量并且0≤k≤1。
12.如权利要求8所述的系统,进一步包括:
分割器,所述分割器接收多个符号以及使用所述经缩放的概率来
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。