当前位置: 首页 > 专利查询>雅虎公司专利>正文

基于从集群生成的模型来预测输入数据的结果制造技术

技术编号:2912689 阅读:192 留言:0更新日期:2012-04-11 18:40
一种包括执行涉及指令的由机器执行的操作的方法,其中所述由机器执行的操作是以下操作中的至少一个: A)通过传输介质发送所述指令; B)通过传输介质接收所述指令; C)将所述指令存储到机器可读存储介质上;以及 D)执行所 述指令; 其中,所述指令是当被一个或多个处理器执行时使所述一个或多个处理器执行以下步骤的指令: 接收包括特定语言的多个词的数据集,其中,在所述特定语言中,词是由字构成的; 从所述数据集生成相关字的集群; 至少基于以下 各项来生成模型: 所述相关字的集群;以及 包括多个条目的训练数据,其中每个条目包括字和该字的指定结果; 接收一组输入数据,其中,所述输入数据包括尚未与指定结果相关联的字,以及 将所述模型应用于所述输入数据以确定所述输 入数据内的字的预测结果。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及机器学习工具。具体地,本专利技术涉及利用片段和字群集(segment and character clustering)来限制机器学习工具生成准确模型所需要的训练数据量。
技术介绍
机器学习工具(MLT)可以用于识别或预测模式(pattern)。例如,MLT可以学习预测书面文本中的特定词(word)是人名或地名。作为另一示例,MLT可以学习预测特定记录在给定数据集中的位置。更具体地,MLT可以学习预测公司名称记录在工作列表中的位置。机器学习工具可以学习预测许多其他类型的模式。训练数据通常用于提供模式,MLT从这些模式中学习预测模式在其他数据(“输入数据”)中的存在。训练数据中的模式可以包括被映射到“指定结果”的“输入”。输入可以是训练数据中的任何要素。指定结果可以是与输入相关联的标签。通常,人为地提供指定结果。例如,人为地标记训练数据中的词(“输入”)以指示特定词是“命名实体(namedentity)”,例如人名、地名或者某种其他命名实体。基于输入和指定结果,MLT逐渐发展了一种模型,该模型可以用于预测不具有指定结果的输入数据的结果。作为具体示例,MLT学习从输入数据中提取命名实体。作为另一示例,MLT学习确定或预测诸如公司名称字段之类的特定类型的记录位于输入数据中的何处。因为训练数据提供用于教导MLT的模式,所以由MLT所生成的模型的准确度受训练数据的性质影响。如果训练数据包括更多的模式或更好的模式,那么MLT能够生成更准确的模型。因为训练数据通常是手动生成的,所以产生训练数据可能是高代价的。此外,获得足够的训练数据使-->MLT生成准确模型通常存在问题。具体地,对于许多语言,缺少足够的训练数据。作为具体示例,对于汉语,缺少足够的训练数据。然而,为MLT提供足够数量和质量的训练数据的问题对于所有语言均存在。因此,需要基于有限的训练数据量,利用MLT来生成准确的模型。在该部分中描述的方法是可能被研究过的方法,但不一定是之前已经被想到或者被研究过的方法。因此,除非以其他方式指出,否则不应仅因为它们被包括在该部分中,就假设在该部分中描述的任何方法是现有技术。附图说明在附图的各图中,通过示例而非限制来示出本专利技术,并且其中相似标号指代类似元件,其中:图1是根据本专利技术实施例的利用片段集群(segment cluster)和字集群(character cluster)来扩充训练数据的体系结构概述,MLT从所述训练数据生成用于预测结果的模型。图2是根据本专利技术实施例的基于相关字的集群来生成模型并且应用该模型来确定预测结果的过程。图3是根据本专利技术实施例的将片段集群和字集群用于确定词片段并提取命名实体的过程。图4是示出其上可以实现本专利技术实施例的计算机系统的框图。具体实施方式在以下的描述中,出于说明的目的,为了提供对本专利技术的全面理解而提出了大量具体细节。然而,应理解,可以在没有这些具体细节的情况下实践本专利技术。在其他实例中,为了避免不必要地使本专利技术模糊,以框图的形式示出熟知的结构和设备。概述公开了用于预测输入数据的结果的技术。预测结果是基于模型而被预-->测的。模型由MLT基于训练数据来生成。然而,除训练数据外,模型还考虑与(1)相关字集群和/或(2)相关片段集群相对应的特征。通过考虑与相关字集群和/或相关片段集群相对应的特征,MLT能够利用相同的训练数据来产生更好的模型。产生更好的模型最终使得产生更准确的预测结果。以下将更详细地描述相关字集群、相关片段集群以及可以如何使用它们来生成模型。体系结构概述图1是根据本专利技术实施例的利用片段集群和字集群来扩充训练数据以使得MLT生成用于预测结果的模型的结构概述。训练数据115、字集群140和片段集群145被输入到MLT110中,MLT110从这些输入中学习,从而确定模型132。模型132用于预测输入数据150的结果。训练数据训练数据115包含模式,MLT110从这些模式中学习以生成模型132。在一个实施例中,训练数据115包含训练项以及训练项的指定结果。例如,训练项可以是汉字,并且指定结果可以指定字的分类。例如,训练数据可以指示一个汉字是地名。训练数据可以指示另一个汉字是人名。训练数据可以指示又一个汉字不是任何类型的命名实体。在一个实施例中,字的指定结果可以指示该字是否是人名或地名的至少一部分。字的指定结果也可以指示该字是命名实体的开头。对命名实体中其他字的指定结果可以指示其他字是命名实体的除开头外的一部分。在一个实施例中,训练数据115包含词之间的边界不太容易辨别的语言文本。例如,训练数据115可以是中文文本。在中文文本中,属于同一个词的字之间的间隔与属于不同词的字之间的间隔相同。当相关的字之间的边界不容易辨别时,训练数据115被称作未经分段的数据。中文文本仅是如下情况的一个示例:训练数据115包含未明确定义词边界的文本。在该示例中,可以用指示字是否是词的开头的指定结果来标记该字。MLT 110能够仅基于训练数据115来生成模型132。然而,如将在下-->文中更详细地描述的,片段集群145和/或字集群140被用于改善模型132的准确度,而无需增大训练数据115的大小。原始数据在一个实施例中,从原始数据120中直接或间接地生成片段集群145和字集群140。与训练数据115不同,原始数据120并不包括指定结果。换言之,不必人为地在原始数据120中放置标签。因此,可以从任何便利的源来收集原始数据120。此外,因为不需要任何的手动标记,所以原始数据120可以是非常大的文集。原始数据120可以是未经分段的数据。例如,在一个实施例中,原始数据120中相关字之间的边界不太容易辨别。作为一个示例,原始数据120可以是中文文本。更一般地,未经分段的原始数据120可以是词的边界未被明确定义的任何文本。也可以使用经片段的原始数据120。例如,在一个实施例中,原始数据120中相关字之间的边界可容易地辨别。相关片段集群在原始数据120是未经分段的数据的情况下,分段器(segmentor)125用于对原始数据120进行分段以将原始数据120划分为片段。这些片段被总地示出为经分段的(segmented)数据128。通常,片段是一串以某种方式相关的一个或多个字的串。片段可以与词相对应,然而并不要求如此。由群集工具130从经分段的本文档来自技高网...

【技术保护点】
一种包括执行涉及指令的由机器执行的操作的方法,其中所述由机器执行的操作是以下操作中的至少一个: A)通过传输介质发送所述指令; B)通过传输介质接收所述指令; C)将所述指令存储到机器可读存储介质上;以及 D)执行所述指令; 其中,所述指令是当被一个或多个处理器执行时使所述一个或多个处理器执行以下步骤的指令: 接收包括特定语言的多个词的数据集,其中,在所述特定语言中,词是由字构成的; 从所述数据集生成相关字的集群; 至少基于以下各项来生成模型: 所述相关字的集群;以及 包括多个条目的训练数据,其中每个条目包括字和该字的指定结果; 接收一组输入数据,其中,所述输入数据包括尚未与指定结果相关联的字,以及 将所述模型应用于所述输入数据以确定所述输入数据内的字的预测结果。

【技术特征摘要】
【国外来华专利技术】1.一种包括执行涉及指令的由机器执行的操作的方法,其中所述由机
器执行的操作是以下操作中的至少一个:
A)通过传输介质发送所述指令;
B)通过传输介质接收所述指令;
C)将所述指令存储到机器可读存储介质上;以及
D)执行所述指令;
其中,所述指令是当被一个或多个处理器执行时使所述一个或多个处
理器执行以下步骤的指令:
接收包括特定语言的多个词的数据集,其中,在所述特定语言
中,词是由字构成的;
从所述数据集生成相关字的集群;
至少基于以下各项来生成模型:
所述相关字的集群;以及
包括多个条目的训练数据,其中每个条目包括字和该字的指
定结果;
接收一组输入数据,其中,所述输入数据包括尚未与指定结果相
关联的字,以及
将所述模型应用于所述输入数据以确定所述输入数据内的字的预
测结果。
2.如权利要求1所述的方法,其中,生成所述模型的步骤包括基于所
述相关字的集群,向所述训练数据中的字应用特征。
3.如权利要求2所述的方法,其中,向所述训练数据中的字应用特征
的步骤包括将标识相关字的特定集群的特征指派给所述训练数据中的特定
字。
4.如权利要求3所述的方法,其中,所述特定字是所述特定集群的成
员。
5.如权利要求1所述的方法,其中,应用所述模型的步骤包括基于所
述相关字的集群,向所述输入数据中的字应用特征。
6.如权利要求5所述的方法,其中,向所述输入数据应用所述模型的
步骤包括至少基于被应用于所述输入数据中的字的特征来确定预测结果。
7.如权利要求5所述的方法,其中,向所述输入数据中的字应用特征
的步骤包括将标识相关字的特定集群的特征指派给所述输入数据中的特定
字。
8.如权利要求7所述的方法,其中,所述输入数据中的所述特定字是
所述特定集群的成员。
9.如权利要求1所述的方法,其中,生成相关字的集群的步骤包括使
特定字与多于一个所述集群相关联。
10.如权利要求1所述的方法,其中,生成相关字的集群的步骤包括
生成特定字和特定集群之间的一对一的映射。
11.如权利要求1所述的方法,其中,从所述数据集生成相关字的集
群的步骤包括使用分布式词群集。
12.如权利要求1所述的方法,其中,所述指令还包括用于以下步骤
的指令:
从所述数据集生成包括一个或多个字的相关片段的集群,其中,所述
片段中的至少一个包括多个字,并且
其中,生成所述模型的步骤还基于所述相关片段的集群。
13.如权利要求12所述的方法,其中,生成所述模型的步骤包括基于
所述相关片段的集群和所述相关字的集群,向所述训练数据中的字应用特
征。
14.如权利要求13所述的方法,其中,向所述训练数据中的字应用特
征的步骤包括向所述训练数据中的特定字应用特征以指示所述特定字是相
关片段的特定集群的成员。
15.如权利要求13所述的方法,其中,应用所述模型的步骤包括将与
所述相关片段的集群的特定集群相关联的特征指派给所述输入数据中的
字。
16.如权利要求12所述的方法,其中,所述指令还包括用...

【专利技术属性】
技术研发人员:彭富春
申请(专利权)人:雅虎公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1