【技术实现步骤摘要】
将对象实例的属性规则化为特征的方法和设备
本专利技术涉及一种将对象实例的属性规则化为特征的方法和将对象实例的属性规则化为特征的设备。
技术介绍
随着计算机及网络技术的发展,对从网络资源中查找有用信息的需求也越来越大。产品的评论、排序以及描述页面在因特网上大量存在,然而,由于信息量过大,分布于各种各样的网站中,且各个网站对同一种产品的描述方式也不同,呈现为网络资源中关于同一产品存在大量的异构(heterogeneous)网页,因而需要从庞杂的网络资源中提取特定领域(domain)的对象(object)的特征(feature)。网络中存在的大量网页包含诸如产品说明网页的对象属性值信息。目前已经存在信息提取技术来从网络中提取网页数据,并自动构建对象数据库。但是,异构网页的存在造成以不同的方式提供产品信息,所谓不同的方式例如不同的用语、不同的架构(schema)结构、及不同的观点等等。目前,对于从网络资源中提取目标对象的描述以及相关
已经有了以下一些现有技术。非专利文件1(T.Wong,L.Bing,andW.Lam,"Normalizingwebproductat ...
【技术保护点】
一种将对象实例的属性规则化为特征的方法,包括:对象实例获取步骤,基于给定的领域获取该领域的对象实例;属性池建立步骤,提取所获取的对象实例中的属性,基于所提取的属性建立属性池;属性相似度计算步骤,基于属性池中任何两个属性之间的相似度,建立相似度矩阵;属性整合步骤,根据属性池中属性的相似度矩阵,将属性聚类为特征。
【技术特征摘要】
1.一种将对象实例的属性规则化为特征的方法,包括:对象实例获取步骤,基于给定的领域获取该领域的对象实例;属性池建立步骤,提取所获取的对象实例中的属性,基于所提取的属性建立属性池;属性相似度计算步骤,基于属性池中任何两个属性之间的相似度,建立属性之间的相似度矩阵;属性整合步骤,根据所述相似度矩阵,将属性池中的属性聚类为特征;其中,在所述属性相似度计算步骤中,分别计算属性池中任何两个属性之间的名称相似度、属性值相似度、及交叉相似度,将该名称相似度、属性值相似度、及交叉相似度加权相加,作为该两个属性之间的相似度。2.按照权利要求1所述的方法,其中,取决于属性是否来自于同一对象,而对名称相似度、属性值相似度、及交叉相似度赋予不同的权重。3.按照权利要求2所述的方法,其中,属性来自于同一对象的情况下名称相似度的权重小于属性来自于不同对象的情况下的权重,属性来自于同一对象的情况下属性值相似度的权重大于属性来自于不同对象的情况下的权重。4.按照权利要求1所述的方法,其中,在所述属性池建立步骤中,基于给定的属性性质,在属性池中排除不符合所给定属性性质的属性。5.按照权利要求1所述的方法,其中,所述属性整合步骤包括:初选步骤,选定预定数目的属性作为初始的中心属性;以及循环执行以下步骤,直至特征符合第一预定优化条件:初步聚类步骤,基于中心属性,根据属性的相似度矩阵,将属性池中的属性聚类为各个初步特征;特征排序步骤,分别计算各个初步特征的分值,依据分值对各个初步特征进行排序;特征过滤步骤,基于初步特征的次序,按照预定过滤规则对初步特征进行过滤;第一判断步骤,判断经过过滤的特征是否符合第一...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。