信息类目错放识别方法和装置制造方法及图纸

技术编号：14117336 阅读：59 留言：0更新日期：2016-12-08 00:33

本发明专利技术提出一种信息类目错放识别方法和装置，该信息类目错放识别方法包括获取训练模型，所述训练模型是预先根据训练样本集得到的，所述训练样本集是根据用户的搜索日志和点击日志筛选得到的；获取待识别的信息；根据所述训练模型，确定所述信息是否发生信息类目错放。该方法能够提高识别准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理
，尤其涉及一种信息类目错放识别方法和装置。
技术介绍
通常来讲，一种信息都有自身对应的类目，以信息是商品为例，每个商品都有对应的类目，卖家可以将一个商品发布到其对应的类目下。当一个信息发布到不属于该信息对应的类目下称为信息类目错放。一个信息被发布到其不属于的类目下，可能是信息发布者无意，故意或者恶意造成的，为了避免信息发布者作弊等不规范行为，需要进行信息类目错放识别。在信息类目错放识别时，可以采用预先构建的训练模型进行识别。现有技术中，以信息是商品为例，构建训练模型采用的训练样本集是当前已有的全网商品，但是，这些商品本身就存在一部分类目错放的商品，尤其是一些错放比较严重的类目，采用这些训练样本集训练得到的训练模型会存在一定误差，致使后续的类目识别也是不准确的。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本专利技术的一个目的在于提出一种信息类目错放识别方法，该方法可以提高识别准确度。本专利技术的另一个目的在于提出一种信息类目错放识别装置。为达到上述目的，本专利技术第一方面实施例提出的信息类目错放识别方法，包括：获取训练模型，所述训练模型是预先根据训练样本集得到的，所述训练样本集是根据用户的搜索日志和点击日志筛选得到的；获取待识别的信息；根据所述训练模型，确定所述信息是否发生信息类目错放。本专利技术第一方面实施例提出的信息类目错放识别方法，通过根据搜索日志和点击日志筛选训练样本集，可以提高训练样本集的纯净度，避免选择存在误差的训练样本集，可以提高训练模型的准确度，从而提高类目识别的准确度。为达到...
信息类目错放识别方法和装置

【技术保护点】
一种信息类目错放识别方法，其特征在于，包括：获取训练模型，所述训练模型是预先根据训练样本集得到的，所述训练样本集是根据用户的搜索日志和点击日志筛选得到的；获取待识别的信息；根据所述训练模型，确定所述信息是否发生信息类目错放。

【技术特征摘要】
1.一种信息类目错放识别方法，其特征在于，包括：获取训练模型，所述训练模型是预先根据训练样本集得到的，所述训练样本集是根据用户的搜索日志和点击日志筛选得到的；获取待识别的信息；根据所述训练模型，确定所述信息是否发生信息类目错放。2.根据权利要求1所述的方法，其特征在于，还包括：根据用户的搜索日志和点击日志筛选得到获取训练样本集，所述根据用户的搜索日志和点击日志筛选得到获取训练样本集，包括：获取预设时间内用户的搜索日志和点击日志；根据所述搜索日志获取搜索词，以及根据所述点击日志确定被用户点击过的信息，将每个搜索词和对应的一个被点击过的信息作为一个训练样本，并由训练样本组成训练样本集。3.根据权利要求1所述的方法，其特征在于，还包括：根据所述训练样本集构建训练模型，所述根据所述训练样本集构建训练模型，包括：计算每个叶子类目下信息个数，所述叶子类目是根据训练样本中每个被点击的信息属于的叶子类目确定的；根据所述信息个数，计算每个叶子类目下每个词的出现概率，所述每个词是对被点击的信息的预设内容进行分词后得到的；将所述信息个数，以及所述出现概率组成训练模型。4.根据权利要求1所述的方法，其特征在于，当所述信息是商品时，所述方法还包括：获取所述商品的商品详情页，并从所述商品详情页中提取关键词，以及获取所述商品的商品标题；所述根据所述训练模型，确定所述信息是否发生信息类目错放，包括：根据所述关键词以及所述商品标题，以及所述训练模型，确定所述信息是否发生信息类目错放。5.根据权利要求4所述的方法，其特征在于，所述从所述商品详情页中提取关键词，包括：对所述商品详情页进行分词，得到商品详情页的每个分词；计算每个分词的TF值，并获取IDF值，所述IDF值是在训练模型时，根据训练样本集确定的；计算每个分词的TF值与IDF值的乘积，并根据乘积从大到小的顺序选择预设个数的分词，作为所述关键词。6.根据权利要求4所述的方法，其特征在于，所述根据所述关键词以及所述商品标题，以及所述训练模型，确定所述信息是否发生信息类目错放，包括：对商品标题进行分词；将商品详情页的关键词添加到商品标题的分词中，去掉重复的词，得到处理后的词；根据处理后的词，对应训练模型中的每个叶子类目，计算当前商品在每个叶子类目下的分类值，以及，计算当前商品在当前叶子类目下的分类值；计算每个叶子类目下的分类值与当前叶子类目的分类值之差，并确定差值最大的叶子类目；当存在大于预设阈值的差值时，确定发生信息类目错放。7.根据权利要求6所述的方法，其特征在于，当发生信息类目错放时，所述方法还包括：将差值最大的叶子类目作为推荐类目，并展示所述推荐类目。8.根据权利要求6所述的方法，其特征在于，所述分类值是根据如...

【专利技术属性】
技术研发人员：谭骏，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人