用于计算类别比例的系统和方法技术方案

技术编号:11062706 阅读:88 留言:0更新日期:2015-02-19 09:41
提供了用于基于语言来分类文本的系统和方法。计算机实现的方法包括接收元素的训练集合,在训练集合中的每个元素被分配给多个类别之一并具有与其相关的多个内容简档之一;接收元素的总体集合,在总体集合中的每个元素具有与其相关的多个内容简档之一;以及使用堆叠回归算法、偏差公式算法、噪声消除算法以及由多个算术方法组成的汇总方法中的至少一个基于与训练集合中的元素相关的内容简档和分配到训练集合中的元素的类别以及与总体集合中的元素相关的内容简档来计算总体集合的元素在类别上的分布,其中,所述多个算术方法的结果被平均化。

【技术实现步骤摘要】
【国外来华专利技术】用于计算类别比例的系统和方法相关申请本申请要求2012年5月25日提交的名称为“SystemsandMethodsforCalculatingCategoryProportions”的美国临时申请61/651,703的优先权,该临时申请通过引用被并入本文。
本专利技术涉及数据挖掘系统的领域。更具体地,本专利技术涉及用于采用非结构化、结构化或仅部分结构化的源数据的源作为输入数据来估计文档内容在一组类别中的分布或从文档内容得到的结论的系统和方法。
技术介绍
通过将源数据分类为给定类别来从源数据——包括包含文本、音频、视频和其它通信媒体的文档和文件——提取信息的努力有很长的历史。数字内容(例如网页、博客、电子邮件、数字化书籍和文章、正式政府报告和立法听证和记录的电子版本以及特别是社交媒体例如TWITTER、FACEBOOK和LINKEDIN的帖子)的数量的增加对希望挖掘这样的丰富信息源以获得有用的信息的人产生了计算挑战。简化这个问题的一种方法是对内容分类。也就是说,将不同的内容分配到多个类别。用于确定内容在这样的类别中的分布的传统技术聚焦于增加被正确地分类的单独元素的百分比和用于这么做的技术,且然后假设单独分类的元素的总比例表示在未检查的元素的更广总体中的分布。不幸的是,即使具有单独元素的给人印象深刻的分类准确度,在例如这些的总比例中的实质偏离仍会保持,且挑战随着数据集的大小和复杂度而增加,从而使得这些传统技术不适合于很多应用。因此,源数据的元素的单独分类——包括通过自动分析或手工编码——在大规模上是不可行的。King等人在2008年3月19日提交的并于2009年1月29日公布的US2009/0030862(“SystemforEstimatingaDistributionofMessageContentCategoriesinSourceData”)中公开了一种改进的方法,其首先评估具有某些内容简档的文档的带标记的集合并将在带标记的集合中的文档分配到类别,然后直接从文档的总体集合的内容简档计算文档的分布;该方法也可参见2008年3月公布的并在http://gking.harvard.edu/可得到的DanielHopkins和GaryKing的“Extractingsystematicsocialsciencemeaningfromtext”。虽然这种方法使分析大量数据变得可能,但仍然可以对分类数据时的准确度进行改进。
技术实现思路
本专利技术包括用于计算总体集合中的类别比例的系统和方法。在第一方面中,提供了计算机实现的方法。在这个方面中,计算机处理器接收元素的训练集合。在训练集合中的每个元素被分配给多个类别之一并具有与其相关的内容简档。计算机处理器还接收元素的总体集合,在总体集合中的每个元素具有内容简档。计算机处理器然后应用堆叠回归方法基于与训练集合中的元素相关的内容简档和分配到训练集合中的元素的类别以及与总体集合中的元素相关的内容简档来计算总体集合的元素在类别上的分布。在本专利技术的又一方面中,代替第一方面中的堆叠回归方法来应用偏差公式方法。在本专利技术的另一方面中,代替在第一方面中的堆叠回归方法来应用噪声消除方法。在本专利技术的再一方面中,代替在第一方面中的堆叠回归方法来应用由多种算术方法组成的汇总方法,这些算术方法的结果被平均化。在本专利技术的再一方面中,提供了用于计算总体集合的类别比例的系统。该系统具有训练模块和总体集合类别估计模块。训练模块包括耦合到存储器的训练处理器,存储器包括使训练处理器执行下列操作的软件指令:(i)接收训练数据,训练数据包括多个训练文本元素,(ii)向用户呈现至少一些训练文本元素,从用户接收训练文本元素所属于的类别的指示,并使用所指示的类别给训练文本元素加标签,以及(iii)存储使用类别加标签后的训练文本元素。总体集合类别估计模块包括耦合到存储器的估计处理器,存储器包括使估计处理器执行下列操作的软件指令:(i)接收总体数据,总体数据包括多个总体文本元素,(ii)计算在训练集合中指示的每个类别的内容简档,(iii)计算总体集合的内容简档,以及(iv)基于与为训练集合中的元素指示的类别相关的内容简档和总体集合的内容简档来计算总体集合的属于每个类别中的比例。在执行其计算时,总体集合类别估计模块应用堆叠回归方法、偏差公式方法和噪声消除方法中的至少一个。附图说明图1是计算机系统的示例性实施方式的示意图;图2是本专利技术的系统的体系结构图;图3示出了根据本专利技术将训练集合分类到类别中;图4A和4B示出了根据本专利技术的文档的内容简档的创建;图5A和5B示出了根据本专利技术的总体集合和类别的内容简档的创建;以及图6示出了根据本专利技术的在总体集合中的类别比例的解。具体实施方式提供了基于数据的内容使用一个或多个计算机服务器和存储装置来将结构化、非结构化或部分结构化数据分类的系统和方法。这涉及接收元素的第一集合,第一集合中的每个元素被分配给多个类别之一并具有与其相关的多个内容简档之一。元素的第二集合接着被接收,第二集合中的每个元素具有与其相关的内容简档之一。接着,计算机处理器使用本文描述的算法并基于与第一集合中的元素相关的内容简档和被分配到第一集合中的元素的类别以及与第二集合中的元素相关的内容简档来计算第二集合的元素在类别上的分布。本专利技术可在社交媒体分析学中找到特别的用途,其中监督机器学习算法一般用于将帖子分类成肯定的、否定的和中性的态度。这种类型的分类可能对社交媒体管理员是有用的,社交媒体管理员在提供消费者服务或创建在线社区的努力中设法与具有这些态度的那些表达观点交互。此外,通过衡量这些态度类别的比例如何随着时间的过去而改变,他们可洞察其努力的有效性。随着社交媒体和社交媒体的相应分析的成熟,分析者寻求复杂的分析。态度类别不能给分析者提供他们需要来做出决定的更深的洞察力,因为大部分商业问题没有可从一般态度方面表达的答案。本专利技术可使用如下面公开的高级算法和算法汇总来处理这些商业问题。使用这些技术,分析者可为他们自己定义对他们的商业重要的类别,并可准确地衡量那些类别的比例如何随着时间的过去而改变。与所有监督机器学习算法一样,本专利技术可通过使用在每个类别中的被标记的帖子例子构建给定数据集的模型来工作。这个模型然后用于分析未被标记的帖子。对于大部分社交媒体分析工具,这个加标记或“训练”由工程师完成。使用本专利技术,因为分析者定义其自己的类别,因此这个训练可由分析者完成。此外,由于时间约束,分析者在训练其模型时仅可以给每类别的几打帖子加标记。相对于与传统算法一起使用的训练集合,这个大小的训练集合包含非常少的信息。此外,由分析者训练的模型必须有效地工作,即使被分析的未加标记的帖子与已训练的帖子相比具有非常不同的比例。这是在机器学习中的公知问题。当比例以这种方式不均衡时,模型中的任何含糊将引入误差。因为少量训练几乎确保模型中的含糊,因此小训练集合和不均衡数据的这种组合看起来与准确的分类不相容。在传统算法失败的场合,本专利技术可成功,因为它不是分类器。它可使用高级算法或算法汇总来分析集合体中的帖子,允许它准确地衡量类别比例,而不试图将各个帖子分类。这允许本专利技术在训练模型时以分析者的时间的相对小的投入来展现与分析者相关的洞察力。现在将描述某些示例性实施本文档来自技高网
...
用于计算类别比例的系统和方法

【技术保护点】
一种由计算机处理器执行的计算机实现的方法,包括:(a)由所述计算机处理器接收元素的训练集合,在所述训练集合中的每个元素被分配给多个类别之一并具有与其相关的多个内容简档之一;(b)由所述计算机处理器接收元素的总体集合,在所述总体集合中的每个元素具有与其相关的所述多个内容简档之一;以及(c)由所述计算机处理器应用堆叠回归方法基于与所述训练集合中的元素相关的内容简档和分配到所述训练集合中的元素的类别以及与所述总体集合中的元素相关的内容简档来计算所述总体集合的元素在所述类别上的分布。

【技术特征摘要】
【国外来华专利技术】2012.05.25 US 61/651703;2013.03.14 US 13/8040961.一种用于总体上对包含数字内容的数字文档分类的计算机实现的方法,该方法由计算机处理器执行且包括:(a)由所述计算机处理器接收各自包含数字内容的数字文档的训练集合,在所述训练集合中的每个数字文档被分配给多个类别之一并与多个内容简档之一相关联,每个内容简档指示在数字文档的数字内容中一个或多个特征的存在或不存在;(b)由所述计算机处理器接收各自包含数字内容的数字文档的总体集合,在所述总体集合中的每个数字文档具有与其包含的数字内容相关的多个内容简档之一;(c)使用所述多个内容简档将所述训练集合中的数字文档和所述总体集合中的数字文档组织成矩阵,所述矩阵的行对应于每个数字文档且其单元指示数字文档的数字内容中一个或多个特征的存在或不存在;(d)使用矩阵的每行的估计总方差来确定该矩阵行的权重;以及(e)由所述计算机处理器将耦合加权回归的堆叠回归应用至所述矩阵来确定所述总体集合中数字文档属于所述多个类别中各类别的比例,所述加权回归使用为所述矩阵的行确定的权重;(f)确定一个或多个数字文档类别比例,各包括属于各类别的数字文档份额;以及(g)通过根据与数字文档所属的比例对应的类别给数字文档加标签来对数字文档进行分类。2.一种用于总体上对包含数字内容的数字文档分类的计算机实现的方法,该方法由计算机处理器执行的且包括:(a)由所述计算机处理器接收数字文档的训练集合,在所述训练集合中的每个数字文档被分配给多个类别之一并关联于指示在其中一个或多个特征存在或不存在的多个内容简档之一;(b)由所述计算机处理器接收数字文档的总体集合,在所述总体集合中的每个数字文档具有与其相关的多个内容简档之一;以及(c)由所述计算机处理器应用偏差公式方法基于与所述训练集合中的数字文档相关联的内容简档和分配给所述训练集合中的数字文档的类别以及与所述总体集合中的数字文档相关的内容简档来确定所述总体集合的数字文档属于所述多个类别中各类别的比例;(d)确定一个或多个数字文档类别比例,各包括属于各类别的数字文档份额;以及(e)通过根据与数字文档所属的比例对应的类别给数字文档加标签来对数字文档进行分类。3.一种用于总体上对包含数字内容的数字文档分类的计算机实现的方法,该方法由计算机处理器执行且包括:(a)由所述计算机处理器接收数字文档的训练集合,在所述训练集合中的每个数字文档被分配给多个类别之一并关联于指示在其中一个或多个特征存在或不存在的多个内容简档之一;(b)由所述计算机处理器接收数字文档的总体集合,在所述总体集合中的每个数字文档具有与其相关的多个内容简档之一;以及(c)由所述计算机处理器应用噪声消除方法基于与所述训练集合中的数字文档相关联的内容简档和分配给所述训练集合中的数字文档的类别以及与所述总体集合中的数字文档相关的内容简档来计算所述总体集合的数字文档属于所...

【专利技术属性】
技术研发人员:A·菲拉特M·布鲁克斯C·宾汉姆A·赫德安格迪伦G·金
申请(专利权)人:克雷姆森海科斯康有限公司
类型:发明
国别省市:美国;US

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1