信息类目错放识别方法和装置制造方法及图纸

技术编号:14117336 阅读:59 留言:0更新日期:2016-12-08 00:33
本发明专利技术提出一种信息类目错放识别方法和装置,该信息类目错放识别方法包括获取训练模型,所述训练模型是预先根据训练样本集得到的,所述训练样本集是根据用户的搜索日志和点击日志筛选得到的;获取待识别的信息;根据所述训练模型,确定所述信息是否发生信息类目错放。该方法能够提高识别准确度。

【技术实现步骤摘要】

本专利技术涉及数据处理
,尤其涉及一种信息类目错放识别方法和装置
技术介绍
通常来讲,一种信息都有自身对应的类目,以信息是商品为例,每个商品都有对应的类目,卖家可以将一个商品发布到其对应的类目下。当一个信息发布到不属于该信息对应的类目下称为信息类目错放。一个信息被发布到其不属于的类目下,可能是信息发布者无意,故意或者恶意造成的,为了避免信息发布者作弊等不规范行为,需要进行信息类目错放识别。在信息类目错放识别时,可以采用预先构建的训练模型进行识别。现有技术中,以信息是商品为例,构建训练模型采用的训练样本集是当前已有的全网商品,但是,这些商品本身就存在一部分类目错放的商品,尤其是一些错放比较严重的类目,采用这些训练样本集训练得到的训练模型会存在一定误差,致使后续的类目识别也是不准确的。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种信息类目错放识别方法,该方法可以提高识别准确度。本专利技术的另一个目的在于提出一种信息类目错放识别装置。为达到上述目的,本专利技术第一方面实施例提出的信息类目错放识别方法,包括:获取训练模型,所述训练模型是预先根据训练样本集得到的,所述训练样本集是根据用户的搜索日志和点击日志筛选得到的;获取待识别的信息;根据所述训练模型,确定所述信息是否发生信息类目错放。本专利技术第一方面实施例提出的信息类目错放识别方法,通过根据搜索日志和点击日志筛选训练样本集,可以提高训练样本集的纯净度,避免选择存在误差的训练样本集,可以提高训练模型的准确度,从而提高类目识别的准确度。为达到上述目的,本专利技术第二方面实施例提出的信息类目错放识别装置,包括:第一
获取模块,用于获取训练模型,所述训练模型是预先根据训练样本集得到的,所述训练样本集是根据用户的搜索日志和点击日志筛选得到的;第二获取模块,用于获取待识别的信息;识别模块,用于根据所述训练模型,确定所述信息是否发生信息类目错放。本专利技术第二方面实施例提出的信息类目错放识别装置,通过根据搜索日志和点击日志筛选训练样本集,可以提高训练样本集的纯净度,避免选择存在误差的训练样本集,可以提高训练模型的准确度,从而提高类目识别的准确度。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是本专利技术一实施例提出的信息类目错放识别方法的流程示意图;图2是本专利技术实施例中获取训练样本集的流程示意图;图3是本专利技术实施例中获取的训练样本集与现有技术中获取的训练样本集的比较示意图;图4是本专利技术另一实施例提出的信息类目错放识别方法的流程示意图;图5是本专利技术实施例中不同叶子类目下每个词的出现概率的示意图;图6是本专利技术实施例中从商品详情页中提取关键词的流程示意图;图7是本专利技术实施例中基于训练模型以及商品详情页和商品标题进行类目错放识别的流程示意图;图8是本专利技术另一实施例提出的信息类目识别装置的结构示意图;图9是本专利技术另一实施例提出的信息类目识别装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。相反,本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。图1是本专利技术一实施例提出的信息类目错放识别方法的流程示意图,该方法包括:S11:获取训练模型,所述训练模型是预先根据训练样本集得到的,所述训练样本集是根据用户的搜索日志和点击日志筛选得到的。与现有技术采用全网样本不同,本实施例中,采用的训练样本集是根据用户的搜索日志和点击日志,对全网样本进行筛选后得到的。具体的,参见图2,本实施例的方法还可以包括获取训练样本集,所述获取训练样本集,可以包括:S21:获取预设时间内用户的搜索日志和点击日志。假设预设时间是30天,则可以收集30天内每个用户的搜索日志,以及对应的点击日志。S22:根据所述搜索日志获取搜索词,以及根据所述点击日志确定被用户点击过的信息,将每个搜索词和对应的一个被点击过的信息作为一个训练样本,并由训练样本组成训练样本集。例如,参见图3,以信息是商品为例,图3的左侧示出了现有技术采用的训练样本集,从图3的左侧可以看出现有技术中采用的训练样本集是全网商品,但是,全网商品中会存在已经类目错放的商品。而本实施例中,参见图3的右侧,用户可以在搜索框中输入搜索词(Query),搜索引擎根据搜索词可以返回商品列表,例如返回的商品列表包括商品1,商品2,…商品N。在返回的商品列表中,用户可以点击部分商品,例如,用户点击了商品2,商品6和商品7,则可以根据这些被点击的商品获取训练样本集。具体的,可以是每个被点击的商品和此时的搜索词组成一个训练样本,通过该方式收集到的所有训练样本形成本实施例中采用的训练样本集。另外,该被点击的商品的叶子类目可以作为该训练样本的类目,每个被点击的商品的叶子类目可以预先记录在商品属性信息中,例如,叶子类目是上衣,或者,数码产品等。当用户搜索商品时,系统会记录下大量的点击日志,即用户在某Query下点击了某个类目下的商品,使用用户点击日志作为获取训练样本的依据的一个优点是能够更好的保证训练样本的纯净度。因为在当前的系统中已经存在一些类目错放的商品,有的类目下还比较严重,直接使用这些商品进行训练会带来一定的误差。而根据用户的搜索行为和点击行为,一是能够选择出质量较好(也就是类目未错放)的商品,二是Query本身对于类目也是一种较好的解释,例如,在搜索词中可能包含上衣这种类目相关的信息。在筛选得到训练样本集后,可以对训练样本集进行训练,得到训练模型。参见图4,可以在模型训练阶段根据训练样本集得到训练模型,模型训练阶段可以具体是在离线完成的。图4以信息是商品为例。如图4所示,假设训练模型称为先验模型,则模型训练阶段得到训练模型的流程可以包括:S41:训练样本集筛选。其中,训练样本集可以根据用户的搜索日志和点击日志筛选,具体的筛选流程可以参见上述相关描述,在此不再赘述。S42:计算每个叶子类目下商品个数。如上描述的,在获取训练样本时,可以将一个被点击的商品及对应的搜索词作为一个训练样本,该训练样本的叶子类目就是被点击的商品的类目。因此,可以获取每个训练样本属于的叶子类目,通过统计后就可以获取每个叶子类目下的商品个数。假设一个叶子类目下的商品个数用Nc表示。S43:计算每个叶子类目下每个词的出现概率。其中,每个词可以是对要处理的内容采用分词技术进行分词后得到的,要处理的内容由商品标题与对应的搜索词组成。由于分词技术是很常用的技术,因此具体的分词技术在此不再赘述,本实施例对具体的分词技术也不进行限定。该步骤的实现方法如下:输入:S41筛选得到的训练样本集;输出:各叶子类目下每个词的出现概率;实现算法:将商品标题与点击时的搜索词进行合并,并对其进行分词,得到每个词;统计每个词在该叶子类目下的出现次数Tw;采用如下公式计算出现概率tfw:tf本文档来自技高网
...
信息类目错放识别方法和装置

【技术保护点】
一种信息类目错放识别方法,其特征在于,包括:获取训练模型,所述训练模型是预先根据训练样本集得到的,所述训练样本集是根据用户的搜索日志和点击日志筛选得到的;获取待识别的信息;根据所述训练模型,确定所述信息是否发生信息类目错放。

【技术特征摘要】
1.一种信息类目错放识别方法,其特征在于,包括:获取训练模型,所述训练模型是预先根据训练样本集得到的,所述训练样本集是根据用户的搜索日志和点击日志筛选得到的;获取待识别的信息;根据所述训练模型,确定所述信息是否发生信息类目错放。2.根据权利要求1所述的方法,其特征在于,还包括:根据用户的搜索日志和点击日志筛选得到获取训练样本集,所述根据用户的搜索日志和点击日志筛选得到获取训练样本集,包括:获取预设时间内用户的搜索日志和点击日志;根据所述搜索日志获取搜索词,以及根据所述点击日志确定被用户点击过的信息,将每个搜索词和对应的一个被点击过的信息作为一个训练样本,并由训练样本组成训练样本集。3.根据权利要求1所述的方法,其特征在于,还包括:根据所述训练样本集构建训练模型,所述根据所述训练样本集构建训练模型,包括:计算每个叶子类目下信息个数,所述叶子类目是根据训练样本中每个被点击的信息属于的叶子类目确定的;根据所述信息个数,计算每个叶子类目下每个词的出现概率,所述每个词是对被点击的信息的预设内容进行分词后得到的;将所述信息个数,以及所述出现概率组成训练模型。4.根据权利要求1所述的方法,其特征在于,当所述信息是商品时,所述方法还包括:获取所述商品的商品详情页,并从所述商品详情页中提取关键词,以及获取所述商品的商品标题;所述根据所述训练模型,确定所述信息是否发生信息类目错放,包括:根据所述关键词以及所述商品标题,以及所述训练模型,确定所述信息是否发生信息类目错放。5.根据权利要求4所述的方法,其特征在于,所述从所述商品详情页中提取关键词,包括:对所述商品详情页进行分词,得到商品详情页的每个分词;计算每个分词的TF值,并获取IDF值,所述IDF值是在训练模型时,根据训练样本集确定的;计算每个分词的TF值与IDF值的乘积,并根据乘积从大到小的顺序选择预设个数的分词,作为所述关键词。6.根据权利要求4所述的方法,其特征在于,所述根据所述关键词以及所述商品标题,以及所述训练模型,确定所述信息是否发生信息类目错放,包括:对商品标题进行分词;将商品详情页的关键词添加到商品标题的分词中,去掉重复的词,得到处理后的词;根据处理后的词,对应训练模型中的每个叶子类目,计算当前商品在每个叶子类目下的分类值,以及,计算当前商品在当前叶子类目下的分类值;计算每个叶子类目下的分类值与当前叶子类目的分类值之差,并确定差值最大的叶子类目;当存在大于预设阈值的差值时,确定发生信息类目错放。7.根据权利要求6所述的方法,其特征在于,当发生信息类目错放时,所述方法还包括:将差值最大的叶子类目作为推荐类目,并展示所述推荐类目。8.根据权利要求6所述的方法,其特征在于,所述分类值是根据如...

【专利技术属性】
技术研发人员:谭骏
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1