【技术实现步骤摘要】
一种信息识别方法及装置
本申请涉及数据处理
,尤其涉及一种信息识别方法及装置。
技术介绍
电商平台上,卖家发布商品时没有将商品发布在最契合类目下的情况叫做类目错放。类目错放的商品,有些是由于对平台的类目体系不够了解而导致非刻意错放,而有些是刻意进行错放,借此获得额外的曝光。对于非刻意错放的商品而言,会影响商品在搜索上的排名表现;对于刻意错放的商品,卖家通过在多个类目下发布多个类似的商品,起到获得额外流量的作用,而这种作弊行为妨碍了其他卖家商品的曝光机会,如果不清除,久而久之其它卖家不得不用同样的方法来进行对抗,从而导致整体电商平台的商品信息库质量下降,影响电商平台生态。从买家的角度看,用户在搜索、浏览结果中夹杂着用户兴趣无关的产品,降低搜索体验。现有的类目错放检测方法主要是利用商品文本信息进行类目错放的检测,对非刻意的类目错放有较好的效果,然而对于刻意错放的商品而言,卖家为了逃避类目错放检测机制,继续获得额外曝光机会,也摸索出了通过在商品信息中加入混淆信息来逃避传统类目错放检测的方法,对这类商品,现有方法的识别效果较差。
技术实现思路
本申请实施例提供了一种信息识别方法及装置,用以提高类目错放识别的准确性,从而减少类目错放现象的发生,提高用户体验。本申请实施例提供的一种信息识别方法,包括:确定检测对象的标题对应的检测对象属性信息;根据所述检测对象属性信息,判断所述检测对象是否存在类目错放问题。通过该方法,根据检测对象的标题对应的检测对象属性信息,判断检测对象是否存在类目错放问题,从而可以提高类目错放识别的准确性,因为考虑了商品属性之间的不同,更加凸显表征 ...
【技术保护点】
一种信息识别方法,其特征在于,该方法包括:确定检测对象的标题对应的检测对象属性信息;根据所述检测对象属性信息,判断所述检测对象是否存在类目错放问题。
【技术特征摘要】
1.一种信息识别方法,其特征在于,该方法包括:确定检测对象的标题对应的检测对象属性信息;根据所述检测对象属性信息,判断所述检测对象是否存在类目错放问题。2.根据权利要求1所述的方法,其特征在于,根据所述检测对象属性信息,判断所述检测对象是否存在类目错放问题,具体包括:根据所述检测对象属性信息,基于预先设置的类目预测结果,判断所述检测对象是否存在类目错放问题。3.根据权利要求2所述的方法,其特征在于,所述类目预测结果,具体包括下列类目预测结果之一或组合:利用网站的热门搜索词确定的类目预测结果;利用买家在网站上的搜索以及买家对搜索结果的反馈,得到的类目预测结果;利用已有商品库中商品标题的中心词、中心短语和词的N元组确定的类目预测结果。4.根据权利要求1所述的方法,其特征在于,根据所述检测对象属性信息,判断所述检测对象是否存在类目错放问题,具体包括:根据所述检测对象属性信息中的文本信息,以及所述检测对象的标题信息,确定该检测对象对应的类目下的文本得分;根据该检测对象对应的类目下的文本得分,结合预设的该检测对象对应的类目下文本数据分布索引,判断所述检测对象是否存在类目错放问题。5.根据权利要求4所述的方法,其特征在于,每一类目下文本数据分布索引是采用如下方式预设的:对于已有的每一类目:对该类目下的商品的属性文本和标题文本进行数据清洗,过滤掉满足预设条件的词;分别统计该类目下的商品的经过所述数据清洗的属性文本和标题文本中的各词的词频;针对该类目下每一商品:根据该商品经过所述数据清洗的属性文本和标题文本中的各词的词频,确定该商品对应的各词的得分,并求该商品对应的各词的得分的平均值,得到该商品对应的文本得分;计算该类目下所有商品的文本得分的平均值和标准差。6.根据权利要求5所述的方法,其特征在于,根据该检测对象对应的类目下的文本得分,结合预设的类目下文本数据分布索引,判断所述检测对象是否存在类目错放问题,具体包括:若该检测对象对应的类目下的文本得分,比该类目下所有商品的文本得分的平均值小预设个数的所述标准差,则确定所述检测对象存在类目错放问题。7.根据权利要求1所述的方法,其特征在于,根据所述检测对象属性信息,判断所述检测对象是否存在类目错放问题,具体包括:根据所述检测对象属性信息中的数值信息,确定该检测对象对应的类目下的数值得分;根据该检测对象对应的类目下的数值得分,结合预设的该检测对象对应的类目下数值数据分布索引,判断所述检测对象是否存在类目错放问题。8.根据权利要求7所述的方法,其特征在于,每一类目下数值数据分布索引是采用如下方式预设的:对于已有的每一类目:对该类目下的商品的数值信息进行单位的换算和归一化;对该类目下的每一商品,将该商品的数值划分到预设的数值范围内;分别统计该类目下的商品的数值信息中的各数值的词频;针对该类目下每一商品:根据该的数值信息中的各数值的词频,确定该商品对应的各数值的得分,并求该商品对应的各数值的得分的平均值,得到该商品对应的数值得分;计算该类目下所有商品的数值得分的平均值和标准差。9.根据权利要求8所述的方法,其特征在于,根据该检测对象对应的类目下的数值得分,结合预设的该检测对象对应的类目下数值数据分布索引,判断所述检测对象是否存在类目错放问题,具体包括:若该检测对象对应的类目下的数值得分,比该类目下所有商品的数值得分的平均值小预设个数的所述标准差,则确定所述检测...
【专利技术属性】
技术研发人员:董宇,吴振元,汤佳宇,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。