用于计算类别比例的系统和方法技术方案

技术编号：11062706 阅读：88 留言：0更新日期：2015-02-19 09:41

提供了用于基于语言来分类文本的系统和方法。计算机实现的方法包括接收元素的训练集合，在训练集合中的每个元素被分配给多个类别之一并具有与其相关的多个内容简档之一；接收元素的总体集合，在总体集合中的每个元素具有与其相关的多个内容简档之一；以及使用堆叠回归算法、偏差公式算法、噪声消除算法以及由多个算术方法组成的汇总方法中的至少一个基于与训练集合中的元素相关的内容简档和分配到训练集合中的元素的类别以及与总体集合中的元素相关的内容简档来计算总体集合的元素在类别上的分布，其中，所述多个算术方法的结果被平均化。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于计算类别比例的系统和方法相关申请本申请要求2012年5月25日提交的名称为“SystemsandMethodsforCalculatingCategoryProportions”的美国临时申请61/651,703的优先权，该临时申请通过引用被并入本文。
本专利技术涉及数据挖掘系统的领域。更具体地，本专利技术涉及用于采用非结构化、结构化或仅部分结构化的源数据的源作为输入数据来估计文档内容在一组类别中的分布或从文档内容得到的结论的系统和方法。
技术介绍
通过将源数据分类为给定类别来从源数据——包括包含文本、音频、视频和其它通信媒体的文档和文件——提取信息的努力有很长的历史。数字内容(例如网页、博客、电子邮件、数字化书籍和文章、正式政府报告和立法听证和记录的电子版本以及特别是社交媒体例如TWITTER、FACEBOOK和LINKEDIN的帖子)的数量的增加对希望挖掘这样的丰富信息源以获得有用的信息的人产生了计算挑战。简化这个问题的一种方法是对内容分类。也就是说，将不同的内容分配到多个类别。用于确定内容在这样的类别中的分布的传统技术聚焦于增加被正确地分类的单独元素的百分比和用于这么做的技术，且然后假设单独分类的元素的总比例表示在未检查的元素的更广总体中的分布。不幸的是，即使具有单独元素的给人印象深刻的分类准确度，在例如这些的总比例中的实质偏离仍会保持，且挑战随着数据集的大小和复杂度而增加，从而使得这些传统技术不适合于很多应用。因此，源数据的元素的单独分类——包括通过自动分析或手工编码——在大规模上是不可行的。King等人在2008年3月19日提交的并于2009...
用于计算类别比例的系统和方法

【技术保护点】
一种由计算机处理器执行的计算机实现的方法，包括：(a)由所述计算机处理器接收元素的训练集合，在所述训练集合中的每个元素被分配给多个类别之一并具有与其相关的多个内容简档之一；(b)由所述计算机处理器接收元素的总体集合，在所述总体集合中的每个元素具有与其相关的所述多个内容简档之一；以及(c)由所述计算机处理器应用堆叠回归方法基于与所述训练集合中的元素相关的内容简档和分配到所述训练集合中的元素的类别以及与所述总体集合中的元素相关的内容简档来计算所述总体集合的元素在所述类别上的分布。

【技术特征摘要】
【国外来华专利技术】2012.05.25 US 61/651703;2013.03.14 US 13/8040961.一种用于总体上对包含数字内容的数字文档分类的计算机实现的方法，该方法由计算机处理器执行且包括：(a)由所述计算机处理器接收各自包含数字内容的数字文档的训练集合，在所述训练集合中的每个数字文档被分配给多个类别之一并与多个内容简档之一相关联，每个内容简档指示在数字文档的数字内容中一个或多个特征的存在或不存在；(b)由所述计算机处理器接收各自包含数字内容的数字文档的总体集合，在所述总体集合中的每个数字文档具有与其包含的数字内容相关的多个内容简档之一；(c)使用所述多个内容简档将所述训练集合中的数字文档和所述总体集合中的数字文档组织成矩阵，所述矩阵的行对应于每个数字文档且其单元指示数字文档的数字内容中一个或多个特征的存在或不存在；(d)使用矩阵的每行的估计总方差来确定该矩阵行的权重；以及(e)由所述计算机处理器将耦合加权回归的堆叠回归应用至所述矩阵来确定所述总体集合中数字文档属于所述多个类别中各类别的比例，所述加权回归使用为所述矩阵的行确定的权重；(f)确定一个或多个数字文档类别比例，各包括属于各类别的数字文档份额；以及(g)通过根据与数字文档所属的比例对应的类别给数字文档加标签来对数字文档进行分类。2.一种用于总体上对包含数字内容的数字文档分类的计算机实现的方法，该方法由计算机处理器执行的且包括：(a)由所述计算机处理器接收数字文档的训练集合，在所述训练集合中的每个数字文档被分配给多个类别之一并关联于指示在其中一个或多个特征存在或不存在的多个内容简档之一；(b)由所述计算机处理器接收数字文档的总体集合，在所述总体集合中的每个数字文档具有与其相关的多个内容简档之一；以及(c)由所述计算机处理器应用偏差公式方法基于与所述训练集合中的数字文档相关联的内容简档和分配给所述训练集合中的数字文档的类别以及与所述总体集合中的数字文档相关的内容简档来确定所述总体集合的数字文档属于所述多个类别中各类别的比例；(d)确定一个或多个数字文档类别比例，各包括属于各类别的数字文档份额；以及(e)通过根据与数字文档所属的比例对应的类别给数字文档加标签来对数字文档进行分类。3.一种用于总体上对包含数字内容的数字文档分类的计算机实现的方法，该方法由计算机处理器执行且包括：(a)由所述计算机处理器接收数字文档的训练集合，在所述训练集合中的每个数字文档被分配给多个类别之一并关联于指示在其中一个或多个特征存在或不存在的多个内容简档之一；(b)由所述计算机处理器接收数字文档的总体集合，在所述总体集合中的每个数字文档具有与其相关的多个内容简档之一；以及(c)由所述计算机处理器应用噪声消除方法基于与所述训练集合中的数字文档相关联的内容简档和分配给所述训练集合中的数字文档的类别以及与所述总体集合中的数字文档相关的内容简档来计算所述总体集合的数字文档属于所...

【专利技术属性】
技术研发人员：A·菲拉特，M·布鲁克斯，C·宾汉姆，A·赫德安格迪伦，G·金，
申请(专利权)人：克雷姆森海科斯康有限公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人