属性冗余去除制造技术

技术编号:15117593 阅读:47 留言:0更新日期:2017-04-09 14:25
描述了与属性冗余去除关联的系统、方法和其它实施例。在一个实施例中,一种方法包括识别描述两个物品的一组属性中的冗余属性值。该示例性方法还包括产生去除了冗余属性值的一组修剪的属性。至少部分地基于所述一组修剪的属性值计算两个物品的相似性。

【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
计算机使用属性(例如,尺寸、颜色、味道、商标、包装)描述特性和对物品进行分类。对应属性值被提供作为属性的描述性文本。例如,属性“尺寸”具有对应属性值,诸如小、中或大。属性被用在零售分析应用中。在一个例子中,属性被用于计算相似性得分,相似性得分是用于基于两个物品的属性评估这两个物品多么相似的可量化方案。与不同的物品相比,相似的物品通常具有更接近的销售分布(例如,销售率)。可能难以识别彼此太相似的物品。存在用于识别太相似的物品的多种方案。一种方案基于针对属性的值对它们进行匹配,从而使得两个物品之间的相同属性值的数量越高,这两个物品的相似性越大。
技术实现思路
在一个实施例中公开了一种在至少包括处理器的数据处理系统中执行的方法,所述方法包括:访问具有用于两个物品的属性值的属性,其中所述属性被以分层方式布置在树中;识别冗余属性值;修剪树以去除冗余属性值;以及至少部分地基于修剪的树为这两个物品计算相似性得分。在本公开的另一方面,识别冗余属性值包括识别不具有兄弟属性值的子属性值。在本公开的另一方面,识别冗余属性值包括识别具有至少两个子属性值的父属性值,其中一个子属性值具有比其余子属性值少的实例。在本公开的另一方面,识别冗余属性包括识别具有比冗余阈值小的增加的辨别能力的属性值。在本公开的另一方面,该方法通过下述步骤来计算相似性得分:为这两个物品确定匹配系数;将匹配系数与相似性阈值进行比较;以及当相似性得分超过相似性阈值时,将<br>该物品确定为相似。在本公开的另一方面,匹配系数至少部分地基于匹配因子,匹配因子确定这两个物品是否具有相同的属性。在本公开的另一方面,匹配因子乘以加权系数。在本公开的另一方面,针对多个物品迭代地执行为这两个物品计算相似性得分。在本公开的另一方面,该方法还包括:至少部分地基于相似性得分从存货去除一个物品。在本公开的另一方面,公开了一种至少包括处理器的数据处理系统,该数据处理系统包括:树逻辑,被配置为接收具有用于至少两个物品的属性值的分类的属性并且产生以分层方式布置属性的树;修剪逻辑,被配置为识别树中的冗余属性值并且从树删除冗余属性值;和得分逻辑,被配置为至少部分地基于修剪的树为所述至少两个物品计算相似性得分。在另一方面,修剪逻辑被配置为通过下述处理来修剪掉冗余属性值:i)识别具有单个子属性值的父属性值;和ii)修剪掉该单个子属性值。在另一方面,修剪逻辑被配置为通过下述处理来修剪掉冗余属性值:i)识别具有至少两个子属性值的父属性值,并且其中一个子属性值具有比所述至少两个子属性值中的其余子属性值少的实例;和ii)修剪掉具有较少的值的子属性值。在另一方面,修剪逻辑被配置为通过识别不区分所述至少两个物品的子属性值来修剪掉冗余属性值。在另一方面,该数据处理系统还包括:存货逻辑,被配置为至少部分地基于相似性得分从存货去除所述至少两个物品中的一个物品。在另一方面,该系统的修剪逻辑被配置为识别冗余属性值包括:识别一组分类的属性中的个体属性值和其余属性值之间的关系;以及识别具有比关系阈值少的关系的个体属性值。在本公开的另一方面,公开了一种执行方法的计算机实现的系统,或者公开了一种存储计算机可执行指令的非暂态计算机可读介质,当所述计算机可执行指令由计算机执行时,所述计算机可执行指令使该计算机执行该方法。该方法包括:识别描述两个物品的一组分类的属性中的冗余属性值,其中冗余属性值是具有不足的辨别能力的属性值;产生去除了冗余属性值的一组修剪的分类的属性;以及至少部分地基于所述一组修剪的分类的属性计算这两个物品的相似性。在另一方面,识别冗余属性值包括:识别所述一组分类的属性中的个体属性值和其余属性值之间的关系;以及识别具有比关系阈值少的关系的个体属性值。在另一方面,识别冗余属性包括:为属性值计算增加的辨别能力;以及将增加的辨别能力与冗余阈值进行比较。在另一方面,该方法还包括:产生分类的属性的树数据结构。在另一方面,识别冗余属性值包括:识别树中具有至少两个子属性值的父属性值,其中一个子属性值具有比所述至少两个子属性值中的其余子属性值少的实例。在另一方面,对属性进行加权,并且其中至少部分地基于属性的权重产生树。附图说明被包括在本说明书中并且构成本说明书的一部分的附图表示各种系统、方法和本公开的其它实施例。将会理解,附图中的示出的元件边界(例如,方框、一组方框或其它形状)代表边界的一个实施例。在一些实施例中,一个元件可被设计为多个元件或者多个元件可被设计为一个元件。在一些实施例中,示出为另一元件的内部部件的元件可被实现为外部部件,反之亦然。另外,可能未按照比例绘制元件。图1表示与属性冗余去除关联的计算设备的一个实施例。图2表示以分层方式布置咖啡产品的各种属性和属性值的树的例子。图3表示与属性冗余去除关联的计算机实现的方法的一个实施例。图4表示识别了冗余属性的图2的树。图5表示修剪掉了冗余属性的图2的树。图6表示与基于树的属性冗余去除关联的计算机实现的方法的实施例。图7表示与基于树的属性冗余去除关联的迭代的计算机实现的方法的实施例。图8表示利用公开的示例性系统和/或方法配置的计算系统/数据处理系统的实施例。具体实施方式由于未考虑到属性冗余,传统相似性评分方案倾向于高估物品的相似性。属性冗余包括重复属性值以及不产生将会帮助用户将物品彼此区分的另外的信息的属性值。在一个实施例中,当在两个物品之间选择时,一些属性代表真实的消费者选择,而其它属性不代表消费者可用的真实的选项。例如,寻找车辆的消费者可能最后选择红色轿车。如果轿车仅为红色,则就消费者可用的汽车的属性而言,颜色“红色”不是真正的选项。然而,如果卡车也是红色,则用于确定两个物品的相似性的典型方案可能高估轿车和卡车之间的相似性,因为二者都是红色的车辆。这是因为,典型方案未识别出轿车的颜色不是消费者可用的选项的结果并且因此不是由消费者做出的选择。用于去除冗余属性的一个典型方案是使最终用户手动地“清理”产品属性并且创建在逻辑上更简明的一组属性和属性值以用于分析应用(诸如,相似性计算)。这种手动方案可减轻问题,但现代系统太大并且复杂而无法手动处理。需要这种手动干预也使得关联的软件应用容易出错、更难使用并且不那么鲁棒。另外,现有技术简单地评估多个属性之间的冗余(诸如,卡方测试或对应分析),并且不提供关于在已识别一对属性之后如何继续进行的引导。例如,如果识别出一对冗余属性(诸如,咖啡物品的形式和包装),则这些本文档来自技高网...

【技术保护点】
一种在至少包括处理器的数据处理系统中执行的方法,所述方法包括:访问具有用于两个物品的属性值的属性(310),其中所述属性被以分层方式布置在树数据结构中,识别(320)冗余属性值;修剪(330)树数据结构以去除冗余属性值;以及至少部分地基于修剪的树数据结构为这两个物品计算(340)相似性得分。

【技术特征摘要】
【国外来华专利技术】2013.10.07 US 61/887,544;2013.10.31 US 14/068,2851.一种在至少包括处理器的数据处理系统中执行的方法,所述方法包括:
访问具有用于两个物品的属性值的属性(310),其中所述属性被以分层方式布置在树
数据结构中,
识别(320)冗余属性值;
修剪(330)树数据结构以去除冗余属性值;以及
至少部分地基于修剪的树数据结构为这两个物品计算(340)相似性得分。
2.如权利要求1所述的方法,其中识别(320)冗余属性值包括识别不具有兄弟属性值的
子属性值。
3.如权利要求1所述的方法,其中识别冗余属性值包括识别具有至少两个子属性值的
父属性值,其中一个子属性值具有比其余子属性值少的实例。
4.如权利要求1所述的方法,其中识别冗余属性包括识别具有比冗余阈值小的增加的
辨别能力的属性值。
5.如权利要求1所述的方法,其中通过下述步骤来计算相似性得分:
为这两个物品确定匹配系数;
将匹配系数与相似性阈值进行比较;以及
当相似性得分超过相似性阈值时,将所述物品确定为相似。
6.如权利要求5所述的方法,其中所述匹配系数至少部分地基于匹配因子,匹配因子确
定这两个物品是否具有相同的属性。
7.如权利要求6所述的方法,其中所述匹配因子与加权系数相乘。
8.如权利要求5所述的方法,其中针对多个物品迭代地执行为这两个物品计算相似性
得分。
9.如权利要求1所述的方法,...

【专利技术属性】
技术研发人员:Z·M·王吴思明
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1