使用经缩放的概率分割词制造技术

技术编号：13375799 阅读：80 留言：0更新日期：2016-07-20 23:08

本发明专利技术涉及用于使用经缩放的概率来分割词的系统、方法和装置，包括计算机程序产品。在一个实施方式中，提供了一种方法。该方法包括接收n‑gram标识词的概率，确定相应n‑gram中的原子单元的数目，根据n‑gram中的原子单元的数目来标识缩放权重，以及将缩放权重应用于n‑gram标识词的概率来确定n‑gram标识词的经缩放的概率。

全部详细技术资料下载

【技术实现步骤摘要】
分案说明本申请属于申请日为2009年4月9日的中国专利技术专利申请200980121627.X的分案申请。
本说明书涉及使用经缩放的(scaled)概率来分割词。
技术介绍
n-gram(n元)是n个连续符号(token)—例如词或字符—的序列。n-gram具有级(order)，其为在n-gram中的符号的数目。例如，1-gram(或者单gram)包括一个符号；2-gram(或者双gram)包括两个符号。每一个n-gram具有作为n-gram在训练数据中的相对频率的函数来计算的相关联的概率估计。例如，L个符号的字符串被表示为可以如下将概率赋值给字符串 P ( c 1 L ) = Π i = 1 L P ( c i | c 1 i - 1 ) ≈ Π i = 1 L P...

【技术保护点】
一种方法，包括：接收n‑gram标识词的概率；确定相应n‑gram中的原子单元的数目；根据所述n‑gram中的原子单元的所述数目来标识缩放权重；以及将所述缩放权重应用于所述n‑gram标识词的所述概率来确定所述n‑gram标识词的经缩放的概率。

【技术特征摘要】
2008.04.16 US 12/104,0141.一种方法，包括：
接收n-gram标识词的概率；
确定相应n-gram中的原子单元的数目；
根据所述n-gram中的原子单元的所述数目来标识缩放权重；以及
将所述缩放权重应用于所述n-gram标识词的所述概率来确定所述
n-gram标识词的经缩放的概率。
2.如权利要求1所述的方法，其中所述n-gram标识词的所述经缩
放的概率取决于所述n-gram中的原子单元的所述数目。
3.如权利要求1所述的方法，其中所述n-gram标识词的所述经缩
放的概率是xn，其中x是所述n-gram标识词的所述概率，以及n是所
述n-gram中的原子单元的所述数目。
4.如权利要求1所述的方法，其中所述n-gram标识词的所述经缩
放的概率是x1+k(n-1)，其中x是所述n-gram标识词的所述概率，n是所
述n-gram中的原子单元的所述数目，以及k是常量并且0≤k≤1。
5.如权利要求1所述的方法，进一步包括：
接收多个符号；以及
使用所述经缩放的概率来将所述多个符号分割成词。
6.如权利要求1所述的方法，进一步包括：
标识较少级的n-gram，所述较少级的n-gram从所述n-gram取得；
接收与所述较少级的n-gram中的每一个相对应的标识词的概率；
将所述n-gram标识词的所述概率与所述较少级的n-gram的组合
标识词的所述概率进行比较；以及
当较少级的n-gram的组合标识词的概率与所述n-gram标识词的

\t所述概率相差指定阈值量时，修改与所述n-gram标识词的所述概率相
对应的所述缩放权重。
7.如权利要求1所述的方法，进一步包括：
接收n-gram标识词的经缩放的概率；
确定较少级的n-gram标识词的经缩放的概率，所述较少级的
n-gram从所述n-gram取得；以及
当较少级的n-gram的组合标识词的经缩放的概率与所述n-gram
标识词的所述经缩放的概率相差指定阈值量时，从字典移除所述
n-gram。
8.一种系统，包括：
字典，所述字典包括n-gram和每一个n-gram标识词的相应概率；
缩放引擎，所述缩放引擎包括对应于每一个n-gram的缩放权重，
所述缩放权重取决于在每一个n-gram中的原子单元的数目；以及
每一个n-gram标识词的经缩放的概率，其中确定每一个n-gram
标识词的所述经缩放的概率包括将缩放权重应用于每一个n-gram标识
词的相应概率。
9.如权利要求8所述的系统，其中所述n-gram标识词的所述经缩
放的概率取决于所述n-gram中的原子单元的所述数目。
10.如权利要求8所述的系统，其中所述n-gram标识词的所述经
缩放的概率是xn，其中x是所述n-gram标识词的所述概率，以及n是
所述n-gram中的原子单元的所述数目。
11.如权利要求8所述的系统，其中所述n-gram标识词的所述经
缩放的概率是x1+k(n-1)，其中x是所述n-gram标识词的所述概率，n是
所述n-gram中的原子单元的所述数目，以及k是常量并且0≤k≤1。
12.如权利要求8所述的系统，进一步包括：
分割器，所述分割器接收多个符号以及使用所述经缩放的概率来

【专利技术属性】
技术研发人员：马克·戴维斯，
申请(专利权)人：谷歌公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人