用于利用机器学习分类器来使用知识表示的系统和方法技术方案

技术编号：21959017 阅读：23 留言：0更新日期：2019-08-24 22:19

提供了用于为机器学习分类器生成训练数据的系统和方法。基于感兴趣对象被合成的知识表示被用来将标签分配给内容项。标记的内容项可以被用作训练数据以用于训练机器学习分类器。标记的内容项也可以被用作针对分类器的验证数据。

System and Method for Using Machine Learning Classifier to Use Knowledge Representation

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于利用机器学习分类器来使用知识表示的系统和方法
本文描述的教导涉及机器学习和信息检索领域。具体地，本文所公开的教导涉及在数字信息系统环境中部署方法以用于使用与被表达为知识表示的一个或多个数据集相关联的信息来对信息进行分类，训练分类器模型以对信息进行分类和/或使用分类器结果来完善知识表示。
技术介绍
信息技术通常被用来向用户提供各种类型的信息，诸如，文本、音频、视频和任何合适的其它类型的信息。在一些情况下，响应于用户采取的动作来向用户提供信息。例如，可以响应于用户输入的搜索查询或者响应于用户已经订阅了诸如电子邮件警报或电子通讯等内容来向用户提供信息。在其它情况下，在用户没有特别请求信息的情况下，将这种信息提供或“推送”给用户。例如，偶尔可能会向用户呈现广告或恳求。存在可以经由信息技术提供给用户的大量内容和信息。实际上，由于经由互联网、万维网(WWW)和任何其它合适的信息供应源可获得大量信息，并且因为可用信息跨大量独立拥有和操作的网络和服务器分布，所以定位用户感兴趣的信息带来了挑战。当感兴趣的信息跨大型专用网络分布时，存在类似的挑战。
技术实现思路
本文呈现的专利技术概念被图示在许多不同的实施例中，每个实施例都示出了一个或多个概念，但是应该理解，一般而言，这些概念不是相互排斥的，并且即使在没有被图示时也可以组合使用。一些实施例提供了一种为机器学习分类器生成训练数据的方法，该方法包括：基于感兴趣对象，接收被编码为非瞬态计算机可读数据结构的知识表示，该知识表示包括至少一个概念和/或两个或更多个概念之间的关系；接收内容项的第一集合，其中第一集合包括没有标签的一个或多个...

【技术保护点】
1.一种针对机器学习分类器生成训练数据的方法，所述方法包括：基于感兴趣对象，接收被编码为非瞬态计算机可读数据结构的知识表示，所述知识表示包括至少一个概念和/或两个或更多个概念之间的关系；接收内容项的第一集合，其中所述第一集合包括没有标签的一个或多个内容项，其中所述标签将内容项分类为一个或多个类别；针对所述第一集合中的一个或多个相应内容项确定一个或多个分数，其中针对相应内容项的所述分数基于所述知识表示和所述相应内容项的内容；以及通过基于与所述第一集合中的所述一个或多个相应内容项相关联的所述分数将标签分配给所述第一集合中的所述一个或多个相应内容项来针对所述机器学习分类器生成所述训练数据。

【技术特征摘要】
【国外来华专利技术】1.一种针对机器学习分类器生成训练数据的方法，所述方法包括：基于感兴趣对象，接收被编码为非瞬态计算机可读数据结构的知识表示，所述知识表示包括至少一个概念和/或两个或更多个概念之间的关系；接收内容项的第一集合，其中所述第一集合包括没有标签的一个或多个内容项，其中所述标签将内容项分类为一个或多个类别；针对所述第一集合中的一个或多个相应内容项确定一个或多个分数，其中针对相应内容项的所述分数基于所述知识表示和所述相应内容项的内容；以及通过基于与所述第一集合中的所述一个或多个相应内容项相关联的所述分数将标签分配给所述第一集合中的所述一个或多个相应内容项来针对所述机器学习分类器生成所述训练数据。2.根据权利要求1所述的方法，进一步包括基于所述感兴趣对象的内容合成所述知识表示。3.根据权利要求2所述的方法，其中所述合成进一步包括生成所述至少一个概念和/或两个或更多个概念之间的所述关系，其中所述概念和/或所述关系未被列举在所述感兴趣对象中。4.根据权利要求1所述的方法，其中所述知识表示包括与所述至少一个概念相关联的权重。5.根据权利要求1所述的方法，其中针对所述相应内容项的所述分数基于所述知识表示中的所述至少一个概念与所述相应内容项的所述内容的交叉。6.根据权利要求1所述的方法，其中所述感兴趣对象包括主题、推文、网页、网站、文档、文档集合、文档标题、消息、广告和/或搜索查询。7.根据权利要求1所述的方法，进一步包括：训练分类器以基于被分配给内容项的所述第一集合的所述标签以及与内容项的所述第一集合相关联的一个或多个特征来预测针对一个或多个未分类的内容项的标签。8.根据权利要求7所述的方法，进一步包括：接收内容项的第二集合，其中所述第二集合包括没有标签的一个或多个内容项；以及由所述分类器基于与所述第二集合中的所述一个或多个相应内容项相关联的一个或多个特征来将标签分配给所述第二集合中的所述内容项中的一个或多个内容项。9.根据权利要求1所述的方法，其中将所述标签分配给所述第一集合中的所述一个或多个相应内容项包括基于针对所述第一集合中的相应内容项的所述分数超过预定阈值来分配所述标签。10.根据权利要求1所述的方法，其中所述标签是“推荐”或“不推荐”中的一个。11.根据权利要求7所述的方法，其中所述一个或多个特征包括以下中的至少一项：标题、长度、作者、术语频率和/或逆文档频率。12.根据权利要求7所述的方法，其中所述一个或多个特征包括所述知识表示的一个或多个属性。13.一种用于针对机器学习分类器生成训练数据的系统，所述系统包括：至少一个处理器，被配置为执行方法，所述方法包括：基于感兴趣对象，接收被编码为非瞬态计算机可读数据结构的知识表示，所述知识表示包括至少一个概念和/或两个或更多个概念之间的关系；接收内容项的第一集合，其中所述第一集合包括没有标签的一个或多个内容项，其中所述标签将内容项分类为一个或多个类别；针对所述第一集合中的一个或多个相应内容项确定一个或多个分数，其中针对相应内容项的所述分数基于所述知识表示和所述相应内容项的内容；以及通过基于与所述第一集合中的所述一个或多个相应内容项相关联的所述分数将标签分配给所述第一集合中的所述一个或多个相应内容项来针对所述机器学习分类器生成所述训练数据。14.根据权利要求13所述的系统，其中所述方法进一步包括基于所述感兴趣对象的内容合成所述知识表示。15.根据权利要求14所述的系统，其中所述合成进一步包括生成所述至少一个概念和/或两个或更多个概念之间的所述关系，其中所述概念和/或所述关系未被列举在所述感兴趣对象中。16.根据权利要求13所述的系统，其中所述知识表示包括与所述至少一个概念相关联的权重。17.根据权利要求13所述的系统，其中针对所述相应内容项的所述分数基于所述知识表示中的所述至少一个概念与所述相应内容项的所述内容的交叉。18.根据权利要求13所述的系统，其中所述感兴趣对象包括主题、推文、网页、网站、文档、文档集合、文档标题、消息、广告和/或搜索查询。19.根据权利要求13所述的系统，其中所述方法进一步包括：训练分类器以基于被分配给内容项的所述第一集合的所述标签以及与内容项的所述第一集合相关联的一个或多个特征来预测针对一个或多个未分类的内容项的标签。20.根据权利要求19所述的系统，其中所述方法进一步包括：接收内容项的第二集合，其中所述第二集合包括没有标签的一个或多个内容项；以及由所述分类器基于与所述第二集合中的所述一个或多个相应内容项相关联的一个或多个特征来将标签分配给所述第二集合中的所述内容项中的一个或多个内容项。21.根据权利要求13所述的系统，其中将所述标签分配给所述第一集合中的所述一个或多个相应内容项包括基于针对所述第一集合中的相应内容项的所述分数超过预定阈值来分配所述标签。22.根据权利要求13所述的系统，其中所述标签是“推荐”或“不推荐”中的一个。23.根据权利要求19所述的系统，其中所述一个或多个特征包括以下中的至少一项：标题、长度、作者、术语频率和/或逆文档频率。24.根据权利要求19所述的系统，其中所述一个或多个特征包括所述知识表示的一个或多个属性。25.存储处理器可执行指令的至少一个非瞬态计算机可读存储介质，所述处理器可执行指令在由至少一个处理器执行时使所述至少一个处理器执行针对机器学习分类器生成训练数据的方法，所述方法包括：基于感兴趣对象，接收被编码为非瞬态计算机可读数据结构的知识表示，所述知识表示包括至少一个概念和/或两个或更多个概念之间的关系；接收内容项的第一集合，其中所述第一集合包括没有标签的一个或多个内容项，其中所述标签将内容项分类为一个或多个类别；针对所述第一集合中的一个或多个相应内容项确定一个或多个分数，其中针对相应内容项的所述分数基于所述知识表示和所述相应内容项的内容；以及通过基于与所述第一集合中的所述一个或多个相应内容项相关联的所述分数将标签分配给所述第一集合中的所述一个或多个相应内容项来针对所述机器学习分类器生成所述训练数据。26.根据权利要求25所述的至少一个非瞬态计算机可读存储介质，其中所述方法进一步包括基于所述感兴趣对象的内容合成所述知识表示。27.根据权利要求26所述的至少一个非瞬态计算机可读存储介质，其中所述合成进一步包括生成所述至少一个概念和/或两个或更多个概念之间的所述关系，其中所述概念和/或所述关系未被列举在所述感兴趣对象中。28.根据权利要求25所述的至少一个非瞬态计算机可读存储介质，其中所述知识表示包括与所述至少一个概念相关联的权重。29.根据权利要求25所述的至少一个非瞬态计算机可读存储介质，其中针对所述相应内容项的所述分数基于所述知识表示中的所述至少一个概念与所述相应内容项的所述内容的交叉。30.根据权利要求25所述的至少一个非瞬态计算机可读存储介质，其中所述感兴趣对象包括主题、推文、网页、网站、文档、文档集合、文档标题、消息、广告和/或搜索查询。31.根据权利要求25所述的至少一个非瞬态计算机可读存储介质，其中所述方法进一步包括：训练分类器以基于被分配给内容项的所述第一集合的所述标签以及与内容项的所述第一集合相关联的一个或多个特征来预测针对一个或多个未分类的内容项的标签。32.根据权利要求31所述的至少一个非瞬态计算机可读存储介质，其中所述方法进一步包括：接收内容项的第二集合，其中所述第二集合包括没有标签的一个或多个内容项；以及由所述分类器基于与所述第二集合中的所述一个或多个相应内容项相关联的一个或多个特征来将标签分配给所述第二集合中的所述内容项中的一个或多个内容项。33.根据权利要求25所述的至少一个非瞬态计算机可读存储介质，其中将所述标签分配给所述第一集合中的所述一个或多个相应内容项包括基于针对所述第一集合中的相应内容项的所述分数超过预定阈值来分配所述标签。34.根据权利要求25所述的至少一个非瞬态计算机可读存储介质，其中所述标签是“推荐”或“不推荐”中的一个。35.根据权利要求31所述的至少一个非瞬态计算机可读存储介质，其中所述一个或多个特征包括以下中的至少一项：标题、长度、作者、术语频率和/或逆文档频率。36.根据权利要求31所述的至少一个非瞬态计算机可读存储介质，其中所述一个或多个特征包括所述知识表示的一个或多个属性。37.一种利用机器学习分类器对至少一个未标记的内容项进行分类的方法，所述方法包括：基于感兴趣对象，接收被编码为非瞬态计算机可读数据结构的知识表示，所述知识表示包括至少一个概念和/或两个或更多个概念之间的关系；接收训练数据，所述训练数据包括具有标签的一个或多个标记的内容项的第一集合，所述标签将每个内容项分类为一个或多个类别；基于从所述知识表示得到的一个或多个属性利用所述标记的内容项的至少一个特征来训练所述机器学习分类器；以及利用所述机器学习分类器，基于从所述知识表示得到的所述一个或多个属性使用所述未标记的内容项的至少一个特征来将所述至少一个未标记的内容项分类为所述一个或多个类别。38.根据权利要求37所述的方法，进一步包括基于所述感兴趣对象的内容合成所述知识表示。39.根据权利要求38所述的方法，其中所述合成进一步包括生成所述至少一个概念和/或两个或更多个概念之间的所述关系，其中所述概念和/或所述关系未被列举在所述感兴趣对象中。40.根据权利要求37所述的方法，其中所述知识表示包括与所述至少一个概念相关联的权重。41.根据权利要求37所述的方法，其中所述一个未标记的内容项的所述至少一个特征基于从所述知识表示得到的所述一个或多个属性的交叉。42.根据权利要求37所述的方法，其中所述感兴趣对象包括主题、推文、网页、网站、文档、文档集合、文档标题、消息、广告和/或搜索查询。43.根据权利要求37所述的方法，进一步包括：接收验证数据，所述验证数据包括一个或多个标记的内容项的第二集合；利用所述机器学习分类器，基于从所述知识表示得到的所述一个或多个属性使用一个或多个标记的内容项的所述第二集合的至少一个特征来将所述验证数据分类为所述一个或多个类别。44.根据权利要求43所述的方法，进一步包括：将针对一个或多个标记的内容项的所述第二集合中的每个标记的内容项的经分类的所述类别与针对一个或多个标记的内容项的所述第二集合中的每个标记的内容项的一个或多个标签相比较；确定由所述机器学习分类器进行的正确分类的数目和错误分类的数目；以及基于所述正确分类的数目和所述错误分类的数目来重新训练所述机器学习分类器。45.根据权利要求37所述的方法，其中所述标记的内容项的所述至少一个特征包括以下中的至少一项：在所述知识表示与所述至少一个未标记的内容项之间交叉的概念的总数，在所述知识表示与所述至少一个未标记的内容项之间交叉的更广泛概念的数目，在所述知识表示与所述至少一个未标记的内容项之间交叉的更狭窄概念的数目，和/或在所述知识表示与所述至少一个未标记的内容项之间交叉的概念的权重之和。46.根据权利要求37所述的方法，其中所述知识表示是用户特定的。47.根据权利要求37所述的方法，其中所述知识表示是群组特定的。48.根据权利要求37所述的方法，其中所述标签包括“推荐”和“不推荐”中的一个。49.根据权利要求37所述的方法，其中所述标签包括“重复”和“未重复”中的一个。50.根据权利要求37所述的方法，其中训练所述机器学习分类器包括训练至少两个机器学习分类器，其中所述至少两个机器学习分类器中的第一分类器是基于从所述知识表示得到的所述一个或多个属性使用所述标记的内容项的第一特征来训练的，并且其中所述至少两个机器学习分类器中的第二分类器是基于从所述知识表示得到的所述一个或多个属性使用所述标记的内容项的第二特征来训练的，其中所述第一特征和所述第二特征基于至少一个不同属性。51.根据权利要求50所述的方法，其中针对所述至少一个未标记的内容项的经分类的所述类别是使用所述至少两个机器学习分类器来确定的。52.根据权利要求51所述的方法，进一步包括基于通过所述至少两个机器学习分类器中的每个机器学习分类器的正确分类和错误分类的相应数目来将权重与所述至少两个机器学习分类器中的每个机器学习分类器相关联。53.根据权利要求37所述的方法，其中所述训练数据是基于针对一个或多个未标记的内容项的分数来生成的，其中针对相应未标记的内容项的所述分数基于从所述知识表示得到的所述一个或多个属性以及所述相应内容项的内容。54.一种用于利用机器学习分类器对至少一个未标记的内容项进行分类的系统，所述系统包括：至少一个处理器，被配置为执行方法，所述方法包括：基于感兴趣对象，接收被编码为非瞬态计算机可读数据结构的知识表示，所述知识表示包括至少一个概念和/或两个或更多个概念之间的关系；接收训练数据，所述训练数据包括具有标签的一个或多个标记的内容项的第一集合，所述标签将每个内容项分类为一个或多个类别；基于从所述知识表示得到的一个或多个属性利用所述标记的内容项的至少一个特征来训练所述机器学习分类器；以及利用所述机器学习分类器，基于从所述知识表示得到的所述一个或多个属性使用所述未标记的内容项的至少一个特征来将所述至少一个未标记的内容项分类为所述一个或多个类别。55.根据权利要求54所述的系统，其中所述方法进一步包括基于所述感兴趣对象的内容合成所述知识表示。56.根据权利要求55所述的系统，其中所述合成进一步包括生成所述至少一个概念和/或两个或更多个概念之间的所述关系，其中所述概念和/或所述关系未被列举在所述感兴趣对象中。57.根据权利要求54所述的系统，其中所述知识表示包括与所述至少一个概念相关联的权重。58.根据权利要求54所述的系统，其中所述一个未标记的内容项的所述至少一个特征基于从所述知识表示得到的所述一个或多个属性的交叉。59.根据权利要求54所述的系统，其中所述感兴趣对象包括主题、推文、网页、网站、文档、文档集合、文档标题、消息、广告和/或搜索查询。60.根据权利要求54所述的系统，其中所述方法进一步包括：接收验证数据，所述验证数据包括一个或多个标记的内容项的第二集合；以及利用所述机器学习分类器，基于从所述知识表示得到的所述一个或多个属性使用一个或多个标记的内容项的所述第二集合的至少一个特征来将所述验证数据分类为所述一个或多个类别。61.根据权利要求60所述的系统，其中所述方法进一步包括：将针对一个或多个标记的内容项的所述第二集合中的每个标记的内容项的经分类的所述类别与针对一个或多个标记的内容项的所述第二集合中的每个标记的内容项的一个或多个标签相比较；确定由所述机器学习分类器进行的正确分类的数目和错误分类的数目；以及基于所述正确分类的数目和所述错误分类的数目来重新训练所述机器学习分类器。62.根据权利要求54所述的系统，其中所述标记的内容项的所述至少一个特征包括以下中的至少一项：在所述知识表示与所述至少一个未标记的内容项之间交叉的概念的总数，在所述知识表示与所述至少一个未标记的内容项之间交叉的更广泛概念的数目，在所述知识表示与所述至少一个未标记的内容项之间交叉的更狭窄概念的数目，和/或在所述知识表示与所述至少一个未标记的内容项之间交叉的概念的权重之和。63.根据权利要求54所述的系统，其中所述知识表示是用户特定的。64.根据权利要求54所述的系统，其中所述知识表示是群组特定的。65.根据权利要求54所述的系统，其中所述标签包括“推荐”和“不推荐”中的一个。66.根据权利要求54所述的系统，其中所述标签包括“重复”和“未重复”中的一个。67.根据权利要求54所述的系统，其中训练所述机器学习分类器包括训练至少两个机器学习分类器，其中所述至少两个机器学习分类器中的第一分类器是基于从所述知识表示得到的所述一个或多个属性使用所述标记的内容项的第一特征来训练的，并且其中所述至少两个机器学习分类器中的第二分类器是基于从所述知识表示得到的所述一个或多个属性使用所述标记的内容项的第二特征来训练的，其中所述第一特征和所述第二特征基于至少一个不同属性。68.根据权利要求67所述的系统，其中针对所述至少一个未标记的内容项的经分类的所述类别是使用所述至少两个机器学习分类器来确定的。69.根据权利要求68所述的系统，其中所述方法进一步包括基于通过所述至少两个机器学习分类器中的每个机器学习分类器的正确分类和错误分类的相应数目来将权重与所述至少两个机器学习分类器中的每个机器学习分类器相关联。70.根据权利要求54所述的系统，其中所述训练数据是基于针对一个或多个未标记的内容项的分数来生成的，...

【专利技术属性】
技术研发人员：M·W·威尔森，I·伊利亚斯，P·J·斯威尼，
申请(专利权)人：启创互联公司，
类型：发明
国别省市：加拿大,CA

全部详细技术资料下载我是这个专利的主人