【技术实现步骤摘要】
【国外来华专利技术】用于标识语料库中出现的N-GRAM的计数的方法和设备
本公开一般涉及文本处理,并且更具体地,涉及用于标识语料库中出现的n-gram(n元)的计数的方法和设备。背景近年来,文本处理系统已被用于处理文本(语料库)并导出关于文本的统计。此类统计可用于开发语言模型,创建分类模型、拼写检查、剽窃检测等。可以被计算的一个示例统计是文本中出现的n-gram的计数。附图说明图1是示出基于n-gram的第一词条(token)在文本中出现的n-gram的计数的图表。图2是标识语料库中出现的n-gram的计数的示例n-gram计数器的框图。图3是表示示例机器可读指令的流程图,当该指令被执行时,使得图2的n-gram计数器标识语料库中出现的n-gram的计数。图4是表示示例机器可读指令的流程图,当该指令被执行时,使得图2的集群在图2的示例集群的一个或多个节点处执行具有热词提取作业的后缀σ。图5是表示示例机器可读指令的流程图,当该指令被执行时,使得图2的集群在图2的示例集群的一个或多个节点处执行热词排序作业。图6是表示示例机器可读指令的流程图,当该指令被执行时,使得图2的集群在图2的示例集群的一个或多个节点处使用经排序的热词后缀来执行后缀σ词计数作业。图7是示例处理器平台的框图,该处理器平台能够执行图3、图4、图5和/或图6的指令以便实现图2的示例n-gram计数器。附图并非按比例绘制。在任何可能的情况下,相同的参考编号将贯穿附图和所附书面说明书被使用来指代相同或相似的部分。具体实施方式计算语言学系统利用关于文本的不同统计。重要的统计数据是文本中出现的n-gram的数量。gra ...
【技术保护点】
1.一种用于标识语料库中出现的n‑元n‑gram的计数的设备,所述设备包括:热词检测器,用于标识频繁开始所述语料库中找到的后缀的词条;后缀标识符,用于标识所述语料库内的第一后缀和第二后缀,所述后缀标识符用于检测所述第一后缀以所述词条开始以及所述第二后缀不以所述词条开始;以及n‑gram计数控制器,用于指导节点的集群执行第一计数算法,以标识所述第一后缀中出现的n‑gram的第一计数,所述n‑gram计数控制器用于指导所述节点的集群执行第二计数算法以标识所述第二后缀中出现的n‑gram的第二计数,所述第二计数算法不同于所述第一计数算法。
【技术特征摘要】
【国外来华专利技术】2016.12.21 US 15/387,0591.一种用于标识语料库中出现的n-元n-gram的计数的设备,所述设备包括:热词检测器,用于标识频繁开始所述语料库中找到的后缀的词条;后缀标识符,用于标识所述语料库内的第一后缀和第二后缀,所述后缀标识符用于检测所述第一后缀以所述词条开始以及所述第二后缀不以所述词条开始;以及n-gram计数控制器,用于指导节点的集群执行第一计数算法,以标识所述第一后缀中出现的n-gram的第一计数,所述n-gram计数控制器用于指导所述节点的集群执行第二计数算法以标识所述第二后缀中出现的n-gram的第二计数,所述第二计数算法不同于所述第一计数算法。2.如权利要求1所述的设备,其特征在于,所述节点的集群通过在所述集群中的第一数量的节点之间分发所述第二后缀来执行所述第二计数算法,所述节点的第一数量大于所述第二后缀中出现的后缀的第二数量。3.如权利要求1至2中任一项所述的设备,其特征在于,基于检测到的语料库的语言来标识频繁开始后缀的词条。4.如权利要求1至3中任一项所述的设备,其特征在于,所述第一计数算法是后缀σ计数。5.如权利要求1至4中任一项所述的设备,其特征在于,使用在经集群的计算环境内执行的MapReduce作业来执行所述第一计数算法。6.如权利要求1至5中任一项所述的设备,其特征在于,为了执行所述第二计数算法,所述集群中的每个节点包括:后缀排序器,用于将所述第二后缀按反向词典编纂顺序进行排序;计数器,用于将所述第二后缀精简为后缀列表以及所述第二后缀中的每个后缀的出现次数;n-gram构造器,用于构造n-gram,所述n-gram以所述后缀列表中每个后缀的前缀开始,所述计数器用于聚合所构造的n-gram的计数以标识所述第二后缀中出现的n-gram的所述第二计数。7.如权利要求6所述的设备,其特征在于,基于用于构造所述对应的n-gram的后缀的出现次数来聚合所述所构造的n-gram的所述计数。8.如权利要求1至7中任一项所述的设备,其特征在于,所述n-gram计数控制器进一步用于将所述第一计数与所述第二计数组合以形成所述语料库中出现的n-gram的总计数。9.一种标识语料库中出现的n-gram的计数的方法,所述方法包括:标识频繁开始所述语料库中找到的后缀的词条;标识所述语料库内的第一后缀和第二后缀;检测所述第一后缀以所述词条开始以及所述第二后缀不以所述词条开始;执行第一计数算法以标识所述第一后缀中出现的n-gram的第一计数;以及执行第二计数算法以标识所述第二后缀中出现的n-gram的第二计数,所述第二计数算法不同于所述第一计数算法。10.如权利要求9所述的方法,其特征在于,执行所述第二计数算法包括:在集群中的第一数量的节点之间分发所述第二后缀,节点的所述第一数量大于所述第二后缀中出现的后缀的第二数量。11.如权利要求9至10中任一项所述的方法,其特征在于,基于检测到的所述语料库的语言来标识频繁开始所述后缀的所述词条。12.如权利要求9至11中任一项所述的方法,其特征在于,所述第一计数算法是后缀σ计数。13.如权利要求9至12中任一项所述的方法,其特征在于,使用在经集群的计算环境内执行的MapReduce作业来执行所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。