基于从集群生成的模型来预测输入数据的结果制造技术

技术编号：2912689 阅读：195 留言：0更新日期：2012-04-11 18:40

一种包括执行涉及指令的由机器执行的操作的方法，其中所述由机器执行的操作是以下操作中的至少一个：　Ａ）通过传输介质发送所述指令；　Ｂ）通过传输介质接收所述指令；　Ｃ）将所述指令存储到机器可读存储介质上；以及　Ｄ）执行所述指令；　其中，所述指令是当被一个或多个处理器执行时使所述一个或多个处理器执行以下步骤的指令：　接收包括特定语言的多个词的数据集，其中，在所述特定语言中，词是由字构成的；　从所述数据集生成相关字的集群；　至少基于以下各项来生成模型：　所述相关字的集群；以及　包括多个条目的训练数据，其中每个条目包括字和该字的指定结果；　接收一组输入数据，其中，所述输入数据包括尚未与指定结果相关联的字，以及　将所述模型应用于所述输入数据以确定所述输入数据内的字的预测结果。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及机器学习工具。具体地，本专利技术涉及利用片段和字群集(segment and character clustering)来限制机器学习工具生成准确模型所需要的训练数据量。
技术介绍
机器学习工具(MLT)可以用于识别或预测模式(pattern)。例如，MLT可以学习预测书面文本中的特定词(word)是人名或地名。作为另一示例，MLT可以学习预测特定记录在给定数据集中的位置。更具体地，MLT可以学习预测公司名称记录在工作列表中的位置。机器学习工具可以学习预测许多其他类型的模式。训练数据通常用于提供模式，MLT从这些模式中学习预测模式在其他数据(“输入数据”)中的存在。训练数据中的模式可以包括被映射到“指定结果”的“输入”。输入可以是训练数据中的任何要素。指定结果可以是与输入相关联的标签。通常，人为地提供指定结果。例如，人为地标记训练数据中的词(“输入”)以指示特定词是“命名实体(namedentity)”，例如人名、地名或者某种其他...

【技术保护点】
一种包括执行涉及指令的由机器执行的操作的方法，其中所述由机器执行的操作是以下操作中的至少一个：　Ａ）通过传输介质发送所述指令；　Ｂ）通过传输介质接收所述指令；　Ｃ）将所述指令存储到机器可读存储介质上；以及　Ｄ）执行所述指令；　其中，所述指令是当被一个或多个处理器执行时使所述一个或多个处理器执行以下步骤的指令：　接收包括特定语言的多个词的数据集，其中，在所述特定语言中，词是由字构成的；　从所述数据集生成相关字的集群；　至少基于以下各项来生成模型：　所述相关字的集群；以及　包括多个条目的训练数据，其中每个条目包括字和该字的指定结果；　接收一组输入数据，其中，所述输入数据包括尚未与指定结果相关联的字...

【技术特征摘要】
【国外来华专利技术】1.一种包括执行涉及指令的由机器执行的操作的方法，其中所述由机
器执行的操作是以下操作中的至少一个：
A)通过传输介质发送所述指令；
B)通过传输介质接收所述指令；
C)将所述指令存储到机器可读存储介质上；以及
D)执行所述指令；
其中，所述指令是当被一个或多个处理器执行时使所述一个或多个处
理器执行以下步骤的指令：
接收包括特定语言的多个词的数据集，其中，在所述特定语言
中，词是由字构成的；
从所述数据集生成相关字的集群；
至少基于以下各项来生成模型：
所述相关字的集群；以及
包括多个条目的训练数据，其中每个条目包括字和该字的指
定结果；
接收一组输入数据，其中，所述输入数据包括尚未与指定结果相
关联的字，以及
将所述模型应用于所述输入数据以确定所述输入数据内的字的预
测结果。
2.如权利要求1所述的方法，其中，生成所述模型的步骤包括基于所
述相关字的集群，向所述训练数据中的字应用特征。
3.如权利要求2所述的方法，其中，向所述训练数据中的字应用特征
的步骤包括将标识相关字的特定集群的特征指派给所述训练数据中的特定
字。
4.如权利要求3所述的方法，其中，所述特定字是所述特定集群的成
员。
5.如权利要求1所述的方法，其中，应用所述模型的步骤包括基于所
述相关字的集群，向所述输入数据中的字应用特征。
6.如权利要求5所述的方法，其中，向所述输入数据应用所述模型的
步骤包括至少基于被应用于所述输入数据中的字的特征来确定预测结果。
7.如权利要求5所述的方法，其中，向所述输入数据中的字应用特征
的步骤包括将标识相关字的特定集群的特征指派给所述输入数据中的特定
字。
8.如权利要求7所述的方法，其中，所述输入数据中的所述特定字是
所述特定集群的成员。
9.如权利要求1所述的方法，其中，生成相关字的集群的步骤包括使
特定字与多于一个所述集群相关联。
10.如权利要求1所述的方法，其中，生成相关字的集群的步骤包括
生成特定字和特定集群之间的一对一的映射。
11.如权利要求1所述的方法，其中，从所述数据集生成相关字的集
群的步骤包括使用分布式词群集。
12.如权利要求1所述的方法，其中，所述指令还包括用于以下步骤
的指令：
从所述数据集生成包括一个或多个字的相关片段的集群，其中，所述
片段中的至少一个包括多个字，并且
其中，生成所述模型的步骤还基于所述相关片段的集群。
13.如权利要求12所述的方法，其中，生成所述模型的步骤包括基于
所述相关片段的集群和所述相关字的集群，向所述训练数据中的字应用特
征。
14.如权利要求13所述的方法，其中，向所述训练数据中的字应用特
征的步骤包括向所述训练数据中的特定字应用特征以指示所述特定字是相
关片段的特定集群的成员。
15.如权利要求13所述的方法，其中，应用所述模型的步骤包括将与
所述相关片段的集群的特定集群相关联的特征指派给所述输入数据中的
字。
16.如权利要求12所述的方法，其中，所述指令还包括用...

【专利技术属性】
技术研发人员：彭富春，
申请(专利权)人：雅虎公司，
类型：发明
国别省市：US

全部详细技术资料下载我是这个专利的主人