类目错放识别方法和装置制造方法及图纸

技术编号:7621101 阅读:334 留言:0更新日期:2012-07-29 22:05
本申请提供类目错放识别方法和装置。所提供的一种类目错放识别方法包括步骤:获取商品标题中各个词在当前类目下的词频;根据各个词在当前类目下的词频,计算所述商品标题的综合词频;以及将所述综合词频与当前类目的第一阈值相比较,根据比较结果确定是否存在类目错放。利用本申请,能够准确识别出类目错放,减少类目错放识别的遗漏概率,所需的系统资源要求低,从而可以节省系统资源,提高运算效率。

【技术实现步骤摘要】

本申请涉及数据处理领域,尤其涉及一种类目错放识别方法和装置
技术介绍
随着电子商务的发展,开网店和网购在网民中越来越普遍。网上交易系统提供一个网上交易平台,其按照类目对网店的商品进行管理。每个大的类目可以划分成更细的子类目,形成一颗类目树。网购商品不断增多,类目树也不断增长,随之产生一个问题,开网店的卖家会无意或者故意将所卖的商品放在错误的类目下,这被称为类目错放。类目错放会导致搜索结果不准确,并造成系统存储、计算资源的浪费,而且对用户造成不好的体验。例如,用户通过点击类目树,查看类目A的商品,却看到了类目B的商品, 并且也会对卖家造成损失,例如放到错误的类目下的商品可能会被忽略掉。如果能够识别出类目错放的商品,将其改正,则可以消除上述负面影响,提高系统的存储和计算资源的利用率,给买家和卖家带来更好的服务。对商品类目错放进行识别的一种方法是,通过点击字典进行类目错放识别。其中, 点击字典由多条记录组成,每条记录中标明在用户的一个查询的搜索结果中,用户点击到某个类目的概率。通过记录用户的查询和点击行为,能够得到对于一个查询,用户点击的商品的分布。当判断一个商品是否属于类目错放的时候,将该商品的标题进行分词,将标题分词后的每个词当作一个查询,在点击字典里查找该查询的类目分布,如果查找到原来标注的类目,就认为不是类目错放,否则认为类目错放。用上述的方法,在对海量数据(如千万、上亿级商品数据)进行错放识别时遗漏情况严重,只能识别并召回几万的类目错放的数据。一个原因是点击字典数据量庞大且分布具有稀疏性,大部分类目错放的商品没有被点击字典中的查询覆盖到。另一个原因是,这种方式运算量大,且运算过程复杂,对系统资源要求高,计算时间长。因此,上述方法不能满足互联网行业快速响应的业务需求。如何提供一种类目错放识别技术,以减少类目错放的遗漏,降低类目错放识别对系统资源要求,提高系统的存储和计算资源的利用率,是本申请所需要解决的技术问题。
技术实现思路
本申请的目的在于,提供一种类目错放识别方法和装置,以减少类目错放识别的遗漏概率,降低类目错放识别对系统资源要求,节省系统资源,提高运算效率。为了实现上述目的,本申请的一个方案提供了一种类目错放识别方法,包括如下步骤获取商品标题中各个词在当前类目下的词频;根据各个词在当前类目下的词频,计算所述商品标题的综合词频;以及将所述综合词频与当前类目的第一阈值相比较,根据比较结果确定是否存在类目错放。本申请的另一个方案提供了一种类目错放识别方法,包括如下步骤获取商品标题中各个词在当前类目下的TOP值;词在类目下的TOP值为一个类目下,词频高于该词的所有词的词频之和;根据预先确定的TOP值与相关度值的映射关系,获取各个词的TOP值对应 的相关度值,并将各个词的TOP值对应的相关度值相加,获取商品标题在所述当前类目下 的综合相关度值;将所述商品标题在当前类目下的综合相关度值与第二阈值相比,根据比 较结果确定是否存在类目错放。本申请的再一个方案提供了一种类目错放识别装置,包括词频获取模块,用于获取商品标题中各个词在当前类目下的词频;综合词频计算模块,用于根据所述词频获取模块获取的各个词在当前类目下的词 频,计算所述商品标题的综合词频;以及类目错放确定模块,用于将所述综合词频计算模块计算得到的综合词频与当前类 目的第一阈值相比较,根据比较结果确定是否存在类目错放。本申请的又一个方案提供了一种类目错放识别装置,包括TOP值获取模块,用于获取商品标题中各个词在当前类目下的TOP值;其中,词在 当前类目下的TOP值为当前类目下,词频比该词高的所有词的词频之和;综合相关度值获取模块,用于根据预先确定的TOP值与相关度值的映射关系,获 取所述TOP值获取模块得到的各个词的TOP值对应的相关度值,并将各个词的TOP值对应 的相关度值相加,获取商品标题在当前类目下的综合相关度值;以及类目错放确定模块,用于将所述综合相关度值获取模块获取的所述商品标题在当 前类目下的综合相关度值与第二阈值相比,根据比较结果确定是否存在类目错放。本申请提供的方法和装置,能够通过将商品标题的综合词频与当前类目的第一阈 值相比较来确定是否存在类目错放;此外,由于TOP值能够反映商品标题与类目的匹配程 度,所以根据TOP值确定的商品标题与类目的综合相关度值也就能够反映商品标题与类目 的匹配程度,根据商品标题在当前类目下的综合相关度值与第二阈值相比的比较结果来确 定是否存在类目错放,可以准确识别出类目错放;通过设置第二阈值,可以减少类目错放识 别的遗漏概率,例如,如果第二阈值设置较低,即可以识别出大多数类目错放。另外,本申请 提供的方法中,主要涉及到TOP值的获取和综合相关度值的获取,获取这两个值的运算与 现有技术相比,所需的系统资源要求低,从而可以节省系统资源,提高运算效率。通过以下参照附图对优选实施例的说明,本申请的上述以及其它目的、特征和优 点将更加明显。附图说明图1示例性示出本申请实施例一的类目错放识别方法的流程图;图2示例性示出本申请实施例二的类目错放识别方法的流程图;图3示例性示出本申请实施例三的类目错放识别方法的流程图;图4示例性示出本申请实施例四的类目错放识别方法的流程图;图5示例性示出本申请实施例五的类目错放识别装置的框图;图6示例性示出本申请实施例六的类目错放识别装置的框图;图7示例性示出本申请实施例七的类目错放识别装置的框图;图8示例性示出本申请实施例八的类目错放确定模块的框图;图9示例性示出本申请实施例九的类目错放确定模块的框图;以及图10示例性示出本申请TOP值获取模块的框图。具体实施例方式下面将详细描述本申请的实施例。应当注意,这里描述的实施例只用于举例说明, 并不用于限制本申请。商品是按照类目存放的,每个商品都有一个标题,作为对这件商品的描述。类目和标题是商品的两个最基本的属性。标题一般是一个短语,可以通过分词将标题分成词的集合。标题和词的关系可以用如下公式(I)来表示T = ^t2. . . tn(I)上述公式⑴中,T表示标题,标题T是由许多词t (包括tp t2, . . . , tn,其中η为正整数)构成。另外,在本申请的实施例中,还需要统计一个类目下商品的数量。具体地,根据预先设置的规则,一件商品能够且只能放在唯一的类目下,因此所有类目下商品的数量之和等于所有商品的数量。一个类目下的商品数量能够体现出该类目出现的频率。为了识别类目错放,可以首先检测商品标题和该商品标题所在的当前类目是否匹配。也就是说,给定一个类目,对于不同的商品标题,可以首先度量每个商品标题与当前类目的匹配程度。下面详细介绍本申请的实施例。实施例一图I示例性示出本申请类目错放识别方法实施例一的流程图,该实施例包括步骤101、获取商品标题中各个词在当前类目下的词频。提供一包括多个类目的数据库,该数据库中每个类目下包括至少一词以及每个词在该类目下的词频;其中,词频为词在各类目下的概率值。一般而言,一个词在不同类目下的词频是不同的。下面结合实例来具体说明“词频”的概念。一个商品标题由一个词或多个词构成,而每个词在不同的类目下出现的频率是不同的。比如“耐克”会在“运动鞋”和“运动服”等运动产品类目下的商品标题中大量出现, 而“诺本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:王俞霖
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术