当前位置: 首页 > 专利查询>谷歌公司专利>正文

使用经缩放的概率分割词制造技术

技术编号:13375799 阅读:80 留言:0更新日期:2016-07-20 23:08
本发明专利技术涉及用于使用经缩放的概率来分割词的系统、方法和装置,包括计算机程序产品。在一个实施方式中,提供了一种方法。该方法包括接收n‑gram标识词的概率,确定相应n‑gram中的原子单元的数目,根据n‑gram中的原子单元的数目来标识缩放权重,以及将缩放权重应用于n‑gram标识词的概率来确定n‑gram标识词的经缩放的概率。

【技术实现步骤摘要】
分案说明本申请属于申请日为2009年4月9日的中国专利技术专利申请200980121627.X的分案申请。
本说明书涉及使用经缩放的(scaled)概率来分割词。
技术介绍
n-gram(n元)是n个连续符号(token)—例如词或字符—的序列。n-gram具有级(order),其为在n-gram中的符号的数目。例如,1-gram(或者单gram)包括一个符号;2-gram(或者双gram)包括两个符号。每一个n-gram具有作为n-gram在训练数据中的相对频率的函数来计算的相关联的概率估计。例如,L个符号的字符串被表示为可以如下将概率赋值给字符串 P ( c 1 L ) = Π i = 1 L P ( c i | c 1 i - 1 ) ≈ Π i = 1 L P ^ ( c i | c i - n + 1 i - 1 ) , ]]>其中该逼近基于在预测字符串中的下一符号时只有最近的(n-1)个符号是相关的马尔可夫假设,并且用于P的“^”标记指示其为概率函数的逼近。词分割的传统技术假设n-gram标识词的概率是独立的。因此,传统技术使用较少级的n-gram的概率的乘积来确定n-gram标识特定词的概率。较少级的n-gram从n-gram取得。例如,假设n-gram是“abc”。那么,n-gram“abc”的较少级的n-gram包括:“a”、“b”、“c”、“ab”和“bc”。n-gram(例如,“abc”)标识多于一个词的概率是每一个较少级的n-gram标识词(例如,“a”、“b”和“c”;“a”和“bc”;或“ab”和“c”)的个体概率的乘积。因为传统技术遵循独立概率的原则,所以传统技术强烈喜好将n-gram分割成与包括更少数量的原子单元的词相比包括更多数量的原子单元的词。原子单元是可以从n-gram取得的最小表意单元(例如,英语的英语字符)。例如,假设n-gram是“abc”。进一步假设“a”、“b”、“c”和“abc”每一个具有等于0.1的标识词的概率,或:P(“a”)=P(“b”)=P(“c”)=P(“abc”)=0.1。尽管“a”、“b”和“c”每一个标识词的概率与“abc”标识词的概率可能相等,但是传统技术强烈喜好将n-gram分割成较长词“abc”。使用传统技术,“abc”标识三个不同词(即,“a”、“b”和“c”)的概率等于“a”标识词的概率乘以“b”标识词的概率乘以“c”标识词的概率,或:P(“a”,“b”,“c”)=P(“a”)P(“b”)P(“c”)=0.001因此,“abc”标识单个词的概率远大于“abc”标识三个词“a”、“b”和“c”的概率,或P(“abc”)>P(“a”,“b”,“c”)结果,由于“abc”具有更高的标识词的概率,所以传统技术偏向于将n-gram分割成“abc”。实际上,n-gram标识词的概率要低得多,增加了相对于包括较短词的分割喜好包括较长词的分割—即使在特定情况下包括较短词的分割能够更准确—的传统技术的问题。
技术实现思路
用于使用经缩放的概率来分割词的系统、方法和装置,包括计算机程序产品。总的来说,可以将在本说明书中描述的主题的一个方面具体化在包括以下动作的方法中:接收n-gram标识词的概率,确定相应n-gram中的原子单元的数目,根据n-gram中的原子单元的数目来标识缩放权重,以及将缩放权重应用于n-gram标识词的概率来确定n-gram标识词的经缩放的概率。本方面的其它实施例包括相应系统、装置和计算机程序产品。这些和其它实施例可以可选地包括以下特征中的一个或多个。n-gram标识词的经缩放的概率可以取决于n-gram中的原子单元的数目。n-gram标识词的经缩放的概率可以是xn,其中x是n-gram标识词的概率,以及n是n-gram中的原子单元的数目。n-gram标识词的经缩放的概率可以是x1+k(n-1),其中x是n-gram标识词的概率,n是n-gram中的原子单元的数目,以及k是常量并且0≤k≤1。该方法可以进一步包括接收多个符号,以及使用经缩放的概率来将所述多个符号分割成词。该方法可以进一步包括标识较少级的n-gram,所述较少级的n-gram从n-gram取得,接收与较少级的n-gram中的每一个相对应的标识词的概率,将n-gram标识词的概率与较少级的n-gram的组合标识词的概率进行比较,以及当较少级的n-gram的组合标识词的概率与n-gram标识词的概率相差指定阈值量时,修改与n-gram标识词的概率相对应的缩放权重。该方法可以进一步包括接收n-gram标识词的经缩放的概率,确定较少级的n-gram标识词的经缩放的概率,较少级的n-gram从n-gram取得,以及当较少级的n-gram的组合标识词的经缩放的概率与n-gram标识词的经缩放的概率相差指定阈值量时,从字典移除n-gram。可以实现在本说明书中描述的主题的特定实施例以实现以下优势中的一个或多个。使用经缩放的概率来分割词防止由在分割期间相对于较短词不正确地喜好较长词所引起的问题。使用对数空间中的缩放概率来确定分割避免对缩放权重的任意应用,其产生没有相对于较短词的分割不正确地喜好较长词的分割的分割。可以在对数空间中预先计算缩放权重,从而在没有损害运行时间性能的情况下提高分割的准确度。可以在分割时使本文档来自技高网
...

【技术保护点】
一种方法,包括:接收n‑gram标识词的概率;确定相应n‑gram中的原子单元的数目;根据所述n‑gram中的原子单元的所述数目来标识缩放权重;以及将所述缩放权重应用于所述n‑gram标识词的所述概率来确定所述n‑gram标识词的经缩放的概率。

【技术特征摘要】
2008.04.16 US 12/104,0141.一种方法,包括:
接收n-gram标识词的概率;
确定相应n-gram中的原子单元的数目;
根据所述n-gram中的原子单元的所述数目来标识缩放权重;以及
将所述缩放权重应用于所述n-gram标识词的所述概率来确定所述
n-gram标识词的经缩放的概率。
2.如权利要求1所述的方法,其中所述n-gram标识词的所述经缩
放的概率取决于所述n-gram中的原子单元的所述数目。
3.如权利要求1所述的方法,其中所述n-gram标识词的所述经缩
放的概率是xn,其中x是所述n-gram标识词的所述概率,以及n是所
述n-gram中的原子单元的所述数目。
4.如权利要求1所述的方法,其中所述n-gram标识词的所述经缩
放的概率是x1+k(n-1),其中x是所述n-gram标识词的所述概率,n是所
述n-gram中的原子单元的所述数目,以及k是常量并且0≤k≤1。
5.如权利要求1所述的方法,进一步包括:
接收多个符号;以及
使用所述经缩放的概率来将所述多个符号分割成词。
6.如权利要求1所述的方法,进一步包括:
标识较少级的n-gram,所述较少级的n-gram从所述n-gram取得;
接收与所述较少级的n-gram中的每一个相对应的标识词的概率;
将所述n-gram标识词的所述概率与所述较少级的n-gram的组合
标识词的所述概率进行比较;以及
当较少级的n-gram的组合标识词的概率与所述n-gram标识词的

\t所述概率相差指定阈值量时,修改与所述n-gram标识词的所述概率相
对应的所述缩放权重。
7.如权利要求1所述的方法,进一步包括:
接收n-gram标识词的经缩放的概率;
确定较少级的n-gram标识词的经缩放的概率,所述较少级的
n-gram从所述n-gram取得;以及
当较少级的n-gram的组合标识词的经缩放的概率与所述n-gram
标识词的所述经缩放的概率相差指定阈值量时,从字典移除所述
n-gram。
8.一种系统,包括:
字典,所述字典包括n-gram和每一个n-gram标识词的相应概率;
缩放引擎,所述缩放引擎包括对应于每一个n-gram的缩放权重,
所述缩放权重取决于在每一个n-gram中的原子单元的数目;以及
每一个n-gram标识词的经缩放的概率,其中确定每一个n-gram
标识词的所述经缩放的概率包括将缩放权重应用于每一个n-gram标识
词的相应概率。
9.如权利要求8所述的系统,其中所述n-gram标识词的所述经缩
放的概率取决于所述n-gram中的原子单元的所述数目。
10.如权利要求8所述的系统,其中所述n-gram标识词的所述经
缩放的概率是xn,其中x是所述n-gram标识词的所述概率,以及n是
所述n-gram中的原子单元的所述数目。
11.如权利要求8所述的系统,其中所述n-gram标识词的所述经
缩放的概率是x1+k(n-1),其中x是所述n-gram标识词的所述概率,n是
所述n-gram中的原子单元的所述数目,以及k是常量并且0≤k≤1。
12.如权利要求8所述的系统,进一步包括:
分割器,所述分割器接收多个符号以及使用所述经缩放的概率来

【专利技术属性】
技术研发人员:马克·戴维斯
申请(专利权)人:谷歌公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1