一种信息识别方法及装置制造方法及图纸

技术编号:16079903 阅读:38 留言:0更新日期:2017-08-25 15:27
本申请公开了一种信息识别方法及装置,用以提高类目错放识别的准确性,从而减少类目错放现象的发生,提高用户体验。本申请提供的一种信息识别方法,包括:确定检测对象的标题对应的检测对象属性信息;根据所述检测对象属性信息,判断所述检测对象是否存在类目错放问题。

【技术实现步骤摘要】
一种信息识别方法及装置
本申请涉及数据处理
,尤其涉及一种信息识别方法及装置。
技术介绍
电商平台上,卖家发布商品时没有将商品发布在最契合类目下的情况叫做类目错放。类目错放的商品,有些是由于对平台的类目体系不够了解而导致非刻意错放,而有些是刻意进行错放,借此获得额外的曝光。对于非刻意错放的商品而言,会影响商品在搜索上的排名表现;对于刻意错放的商品,卖家通过在多个类目下发布多个类似的商品,起到获得额外流量的作用,而这种作弊行为妨碍了其他卖家商品的曝光机会,如果不清除,久而久之其它卖家不得不用同样的方法来进行对抗,从而导致整体电商平台的商品信息库质量下降,影响电商平台生态。从买家的角度看,用户在搜索、浏览结果中夹杂着用户兴趣无关的产品,降低搜索体验。现有的类目错放检测方法主要是利用商品文本信息进行类目错放的检测,对非刻意的类目错放有较好的效果,然而对于刻意错放的商品而言,卖家为了逃避类目错放检测机制,继续获得额外曝光机会,也摸索出了通过在商品信息中加入混淆信息来逃避传统类目错放检测的方法,对这类商品,现有方法的识别效果较差。
技术实现思路
本申请实施例提供了一种信息识别方法及装置,用以提高类目错放识别的准确性,从而减少类目错放现象的发生,提高用户体验。本申请实施例提供的一种信息识别方法,包括:确定检测对象的标题对应的检测对象属性信息;根据所述检测对象属性信息,判断所述检测对象是否存在类目错放问题。通过该方法,根据检测对象的标题对应的检测对象属性信息,判断检测对象是否存在类目错放问题,从而可以提高类目错放识别的准确性,因为考虑了商品属性之间的不同,更加凸显表征能力强的属性的作用,避免了因为商品标题中某些字段中存在混淆信息从而导致商品类目错放漏判的发生,减少类目错放现象的发生,提高用户体验。可选地,根据所述检测对象属性信息,判断所述检测对象是否存在类目错放问题,具体包括:根据所述检测对象属性信息,基于预先设置的类目预测结果,判断所述检测对象是否存在类目错放问题。本申请实施例,使用层次类目预测方案提高类目预测准确率:层次类目预测的方法共分三层:第一层注重准确率,通过对高频文本人工标注的方法,来提高这部分文本的类目预测准确率;第二层在注重准确率同时考虑召回率,是通过用户的搜索日志来得到搜索词到用户点击的商品所属的类目的分布关系,一旦商品标题匹配到搜索词,那么就可以对其进行类目预测,为了避免精确匹配造成的召回率问题,对搜索词会进行改写,例如去除一些停用词、不重要的属性词等,如果商品标题命中改写后的搜索词,也可堆砌;第三层在保证准确率的基础上更注重召回,即在原有NGram预测方法基础上,提取商品标题、描述信息中的中心词和中心短语,并在融合候选类目得分时,赋予中心词和中心短语更高的权重,提高重要信息对结果的影响;层次类目预测的方法,从准确率上,逐层递减,从召回率上,逐层递增;能够更好的达到准确率与召回率的平衡。因此,可选地,所述类目预测结果,具体包括下列类目预测结果之一或组合:利用网站的热门搜索词确定的类目预测结果;利用买家在网站上的搜索以及买家对搜索结果的反馈,得到的类目预测结果;利用已有商品库中商品标题的中心词、中心短语和词的N元组确定的类目预测结果。另外,本申请实施例中提出的关于基于异常检测机制的类目错放识别方法:类目错放的本质是商品的某些信息与类目不契合,这种不契合表现在这些信息的取值在类目下出现很少,从机器学习的角度看,就是商品的某些字段在该类目下属于异常值;因此,运用异常检测技术可以有效地把异常值检测出来,着重加以判断;这种方法的好处是,就算商品并不属于类目错放,但是其信息质量很可能是存在问题的。对不同类型的多种商品信息针对性的运用异常检测机制,增加类目错放召回:单一的类目预测检测机制容易受到标题的混淆而导致无法召回,然而很少有卖家会对发布的产品所有字段都进行混淆,因此通过对商品多个主要信息运用异常检测方法可以有效的检测标题滥用的情况。对于文本类型的商品信息和数值类型的商品信息,在做异常检测时采取了不同的处理方法,避免因为数据类型不同而导致误判。因此,可选地,根据所述检测对象属性信息,判断所述检测对象是否存在类目错放问题,具体包括:根据所述检测对象属性信息中的文本信息,以及所述检测对象的标题信息,确定该检测对象对应的类目下的文本得分;根据该检测对象对应的类目下的文本得分,结合预设的该检测对象对应的类目下文本数据分布索引,判断所述检测对象是否存在类目错放问题。可选地,每一类目下文本数据分布索引是采用如下方式预设的:对于已有的每一类目:对该类目下的商品的属性文本和标题文本进行数据清洗,过滤掉满足预设条件的词;分别统计该类目下的商品的经过所述数据清洗的属性文本和标题文本中的各词的词频;针对该类目下每一商品:根据该商品经过所述数据清洗的属性文本和标题文本中的各词的词频,确定该商品对应的各词的得分,并求该商品对应的各词的得分的平均值,得到该商品对应的文本得分;计算该类目下所有商品的文本得分的平均值和标准差。可选地,根据该检测对象对应的类目下的文本得分,结合预设的类目下文本数据分布索引,判断所述检测对象是否存在类目错放问题,具体包括:若该检测对象对应的类目下的文本得分,比该类目下所有商品的文本得分的平均值小预设个数的所述标准差,则确定所述检测对象存在类目错放问题。可选地,根据所述检测对象属性信息,判断所述检测对象是否存在类目错放问题,具体包括:根据所述检测对象属性信息中的数值信息,确定该检测对象对应的类目下的数值得分;根据该检测对象对应的类目下的数值得分,结合预设的该检测对象对应的类目下数值数据分布索引,判断所述检测对象是否存在类目错放问题。可选地,每一类目下数值数据分布索引是采用如下方式预设的:对于已有的每一类目:对该类目下的商品的数值信息进行单位的换算和归一化;对该类目下的每一商品,将该商品的数值划分到预设的数值范围内;分别统计该类目下的商品的数值信息中的各数值的词频;针对该类目下每一商品:根据该的数值信息中的各数值的词频,确定该商品对应的各数值的得分,并求该商品对应的各数值的得分的平均值,得到该商品对应的数值得分;计算该类目下所有商品的数值得分的平均值和标准差。可选地,根据该检测对象对应的类目下的数值得分,结合预设的该检测对象对应的类目下数值数据分布索引,判断所述检测对象是否存在类目错放问题,具体包括:若该检测对象对应的类目下的数值得分,比该类目下所有商品的数值得分的平均值小预设个数的所述标准差,则确定所述检测对象存在类目错放问题。与上述方法相对应地,本申请实施例提供的一种信息识别装置,包括:第一单元,用于确定检测对象的标题对应的检测对象属性信息;第二单元,用于根据所述检测对象属性信息,判断所述检测对象是否存在类目错放问题。可选地,所述第二单元,具体用于:根据所述检测对象属性信息,基于预先设置的类目预测结果,判断所述检测对象是否存在类目错放问题。可选地,所述类目预测结果,具体包括下列类目预测结果之一或组合:利用网站的热门搜索词确定的类目预测结果;利用买家在网站上的搜索以及买家对搜索结果的反馈,得到的类目预测结果;利用已有商品库中商品标题的中心词、中心短语和词的N元组确定的类目预测结果。可选本文档来自技高网...
一种信息识别方法及装置

【技术保护点】
一种信息识别方法,其特征在于,该方法包括:确定检测对象的标题对应的检测对象属性信息;根据所述检测对象属性信息,判断所述检测对象是否存在类目错放问题。

【技术特征摘要】
1.一种信息识别方法,其特征在于,该方法包括:确定检测对象的标题对应的检测对象属性信息;根据所述检测对象属性信息,判断所述检测对象是否存在类目错放问题。2.根据权利要求1所述的方法,其特征在于,根据所述检测对象属性信息,判断所述检测对象是否存在类目错放问题,具体包括:根据所述检测对象属性信息,基于预先设置的类目预测结果,判断所述检测对象是否存在类目错放问题。3.根据权利要求2所述的方法,其特征在于,所述类目预测结果,具体包括下列类目预测结果之一或组合:利用网站的热门搜索词确定的类目预测结果;利用买家在网站上的搜索以及买家对搜索结果的反馈,得到的类目预测结果;利用已有商品库中商品标题的中心词、中心短语和词的N元组确定的类目预测结果。4.根据权利要求1所述的方法,其特征在于,根据所述检测对象属性信息,判断所述检测对象是否存在类目错放问题,具体包括:根据所述检测对象属性信息中的文本信息,以及所述检测对象的标题信息,确定该检测对象对应的类目下的文本得分;根据该检测对象对应的类目下的文本得分,结合预设的该检测对象对应的类目下文本数据分布索引,判断所述检测对象是否存在类目错放问题。5.根据权利要求4所述的方法,其特征在于,每一类目下文本数据分布索引是采用如下方式预设的:对于已有的每一类目:对该类目下的商品的属性文本和标题文本进行数据清洗,过滤掉满足预设条件的词;分别统计该类目下的商品的经过所述数据清洗的属性文本和标题文本中的各词的词频;针对该类目下每一商品:根据该商品经过所述数据清洗的属性文本和标题文本中的各词的词频,确定该商品对应的各词的得分,并求该商品对应的各词的得分的平均值,得到该商品对应的文本得分;计算该类目下所有商品的文本得分的平均值和标准差。6.根据权利要求5所述的方法,其特征在于,根据该检测对象对应的类目下的文本得分,结合预设的类目下文本数据分布索引,判断所述检测对象是否存在类目错放问题,具体包括:若该检测对象对应的类目下的文本得分,比该类目下所有商品的文本得分的平均值小预设个数的所述标准差,则确定所述检测对象存在类目错放问题。7.根据权利要求1所述的方法,其特征在于,根据所述检测对象属性信息,判断所述检测对象是否存在类目错放问题,具体包括:根据所述检测对象属性信息中的数值信息,确定该检测对象对应的类目下的数值得分;根据该检测对象对应的类目下的数值得分,结合预设的该检测对象对应的类目下数值数据分布索引,判断所述检测对象是否存在类目错放问题。8.根据权利要求7所述的方法,其特征在于,每一类目下数值数据分布索引是采用如下方式预设的:对于已有的每一类目:对该类目下的商品的数值信息进行单位的换算和归一化;对该类目下的每一商品,将该商品的数值划分到预设的数值范围内;分别统计该类目下的商品的数值信息中的各数值的词频;针对该类目下每一商品:根据该的数值信息中的各数值的词频,确定该商品对应的各数值的得分,并求该商品对应的各数值的得分的平均值,得到该商品对应的数值得分;计算该类目下所有商品的数值得分的平均值和标准差。9.根据权利要求8所述的方法,其特征在于,根据该检测对象对应的类目下的数值得分,结合预设的该检测对象对应的类目下数值数据分布索引,判断所述检测对象是否存在类目错放问题,具体包括:若该检测对象对应的类目下的数值得分,比该类目下所有商品的数值得分的平均值小预设个数的所述标准差,则确定所述检测...

【专利技术属性】
技术研发人员:董宇吴振元汤佳宇
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1