数据检测的方法和装置制造方法及图纸

技术编号:28203032 阅读:29 留言:0更新日期:2021-04-24 14:26
本发明专利技术公开了一种数据检测的方法和装置。其中,该方法包括:获取搜索行为信息,其中,搜索行为信息用于指示目标对象所输入的查询记录;依据搜索行为信息和待选对象信息生成检测模型;依据检测模型对预设周期内的目标对象信息和目标对象信息对应的用户的搜索行为信息进行处理,预测得到检测结果。本发明专利技术解决了现有技术在对隐藏商品进行数据检测的过程中,由于技术本身的缺陷导致的检测效率低的技术问题。题。题。

【技术实现步骤摘要】
数据检测的方法和装置


[0001]本专利技术涉及互联网
,具体而言,涉及一种数据检测的方法和装置。

技术介绍

[0002]零售平台由于其平台属性,商家会发布一些隐性商品,这类隐性商品存在违规的特性。隐性商品的特点是常用一些同义词甚至完全和商品不相关的词来作为该商品的文本介绍内容,以此规避平台的防控机制。而这些商品可能会被一些经验丰富的买家通过自己的搜寻技术将这些商品从海量的相似商品中找出,造成了这类商品在一定程度上的传播。由于这些传播会对平台、用户的购物体验造成较大的影响,因此平台急需更加智能和高效的方法尽快发现这些隐蔽商品。
[0003]现有的检测方法包括:基于关键词拦截结合人工判断的方法,该方法包括:由业务专家根据隐蔽商品的特性和已经确认的隐蔽商品信息总结、归纳、收集商品敏感字典。在敏感关键词拦截的基础上,进行人工校验,根据业务变化,调整增添敏感字典中的关键词。尽管这种方法可以快速拦截绝大多数隐蔽商品,但是这种方式不够灵活,相对比较滞后,很难应付卖家创造的新词或者新的描述,而且容易造成误判。
[0004]此外现有的检测方法还包括:基于手工特征的机器学习的方法,该方法包括:利用商品的文本信息作为特征,训练机器学习分类模型以理解商品文本中蕴含的语义。然而,由于隐蔽商品的文本内容相对来说是比较隐晦或者与正常商品相似,所以已有的基于机器学习的模型很难捕捉到有效的语义。同样,由于这些模型需要大量的训练语料,而这些由商品本身的信息如商品标题或者描述的数据很难很快的捕捉到其中的变化,训练好的模型相对于最新的场景总是一个“老”模型,所以在线上的使用并不能非常好的满足业务需求。
[0005]基于上述,现有的检测方法还包括:基于深度学习的方法,该方法还包括:与手工特征的机器学习方法的流程类似,区别在于用深度学习自动学习输入的文本特征。
[0006]针对上述现有技术在对隐藏商品进行数据检测的过程中,由于技术本身的缺陷导致的检测效率低的问题,目前尚未提出有效的解决方案。

技术实现思路

[0007]本专利技术实施例提供了一种数据检测的方法和装置,以至少解决现有技术在对隐藏商品进行数据检测的过程中,由于技术本身的缺陷导致的检测效率低的技术问题。
[0008]根据本专利技术实施例的一个方面,提供了一种数据检测的方法,包括:获取搜索行为信息,其中,搜索行为信息用于指示目标对象所输入的查询记录;依据搜索行为信息和待选对象信息生成检测模型;依据检测模型对预设周期内的目标对象信息和目标对象信息对应的用户的搜索行为信息进行处理,预测得到检测结果。
[0009]可选的,获取搜索行为信息包括:获取每条用户确定目标对象的记录信息;提取记录信息中用户的查询记录;获取查询记录中的查询序列以及查询序列中的待选对象序列;依据查询序列和所待选对象序列得到搜索行为信息。
[0010]可选的,依据搜索行为信息和待选对象信息生成检测模型包括:依据搜索行为信息中的查询数据进行向量计算,得到查询向量矩阵;依据待选对象信息中的待选对象数据进行向量计算,得到待选对象向量矩阵;依据查询向量矩阵和待选对象向量矩阵生成检测模型。
[0011]进一步地,可选的,该方法还包括:依据查询向量矩阵和待选对象向量矩阵获取语义信息和意图信息;依据语义信息和意图信息获取向量;依据语义信息和意图信息的向量进行拼接,得到标签。
[0012]可选的,该方法还包括:获取意图信息的前向和后向的最后一个时间点的拼接作为潜在意图。
[0013]可选的,该方法还包括:获取语义信息中的最后一个潜在语义状态;依据最后一个潜在语义状态计算与剩余潜在语义状态的相似度;依据相似度对所有语义状态进行池化。
[0014]可选的,依据检测模型对预设周期内的目标对象信息和目标对象信息对应的用户的搜索行为信息进行处理,预测得到检测结果包括:获取预设周期内的目标对象信息;提取目标对象信息对应的用户的搜索行为信息;依据检测模型对目标信息和搜索行为信息进行检测,获取目标对象信息中不满足预设检测条件的目标对象数量;将目标对象数量作为检测结果。
[0015]可选的,该方法还包括:根据特定时间段内的流行语进行商品推荐。
[0016]根据本专利技术实施例的另一方面,还提供了一种数据检测的方法,包括:获取在线交易平台上的所有搜索行为信息,其中,搜索行为信息用于指示目标对象所输入的查询记录;依据搜索行为信息和待选对象信息生成检测模型;依据检测模型对目标对象信息和目标对象信息对应的搜索行为信息进行处理,预测得到检测结果。
[0017]根据本专利技术另一实施例的一方面,还提供了一种数据检测的装置,包括:获取模块,用于获取搜索行为信息,其中,搜索行为信息,用于指示目标对象所输入的查询记录;模型生成模块,用于依据搜索行为信息和待选对象信息生成检测模型;检测模块,用于依据检测模型对预设周期内的目标对象信息和目标对象信息对应的用户的搜索行为信息进行处理,预测得到检测结果。
[0018]根据本专利技术另一实施例的另一方面,还提供了一种数据检测的装置,包括:爬取模块,用于获取在线交易平台上的所有搜索行为信息,其中,搜索行为信息用于指示目标对象所输入的查询记录;模型生成模块,用于依据搜索行为信息和待选对象信息生成检测模型;检测模块,用于依据检测模型对目标对象信息和目标对象信息对应的搜索行为信息进行处理,预测得到检测结果。
[0019]根据本专利技术又一实施例的一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述数据检测的方法。
[0020]根据本专利技术又一实施例的一方面,还提供了一种数据检测的装置,包括存储介质和处理器,处理器用于运行存储于存储介质中的程序,其中,程序运行时执行上述数据检测的方法。
[0021]在本专利技术实施例中,采用引入用户在搜索隐蔽商品时的搜索行为信息的方式,通过获取搜索行为信息,其中,搜索行为信息用于指示目标对象所输入的查询记录;依据搜索行为信息和待选对象信息生成检测模型;依据检测模型对预设周期内的目标对象信息和目
标对象信息对应的用户的搜索行为信息进行处理,预测得到检测结果,达到了避免卖家刻意规避交易平台数据检测规则导致检测疏漏问题产生的目的,从而实现了提高对隐蔽商品检测的技术效果,进而解决了现有技术在对隐藏商品进行数据检测的过程中,由于技术本身的缺陷导致的检测效率低的技术问题。
附图说明
[0022]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0023]图1是根据本专利技术实施例1的一种数据检测的方法的计算机终端(或移动设备)的硬件结构框图;
[0024]图2是根据本专利技术实施例1的一种数据检测的方法的流程图;
[0025]图3是根据本专利技术实施例1的一种基于原创递归神经网络和树剪枝机制检测隐蔽商品的原理图;
[0026]图4是根据本专利技术实施例2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据检测的方法,包括:获取搜索行为信息,其中,所述搜索行为信息用于指示目标对象所输入的查询记录;依据所述搜索行为信息和待选对象信息生成检测模型;依据所述检测模型对预设周期内的目标对象信息和所述目标对象信息对应的用户的搜索行为信息进行处理,预测得到检测结果。2.根据权利要求1所述的方法,其中,获取搜索行为信息包括:获取每条所述用户确定所述目标对象的记录信息;提取所述记录信息中所述用户的查询记录;获取所述查询记录中的查询序列以及所述查询序列中的待选对象序列;依据所述查询序列和所述待选对象序列得到所述搜索行为信息。3.根据权利要求1或2所述的方法,其中,依据所述搜索行为信息和待选对象信息生成检测模型包括:依据所述搜索行为信息中的查询数据进行向量计算,得到查询向量矩阵;依据所述待选对象信息中的待选对象数据进行向量计算,得到待选对象向量矩阵;依据所述查询向量矩阵和待选对象向量矩阵生成所述检测模型。4.根据权利要求3所述的方法,其中,所述方法还包括:依据所述查询向量矩阵和待选对象向量矩阵获取语义信息和意图信息;依据所述语义信息和所述意图信息获取向量;依据所述语义信息和所述意图信息的向量进行拼接,得到标签。5.根据权利要求4所述的方法,其中,所述方法还包括:获取所述意图信息的前向和后向的最后一个时间点的拼接作为潜在意图。6.根据权利要求4所述的方法,其中,所述方法还包括:获取所述语义信息中的最后一个潜在语义状态;依据所述最后一个潜在语义状态计算与剩余潜在语义状态的相似度;依据所述相似度对所有语义状态进行池化。7.根据权利要求3所述的方法,其中,所述依据所述检测模型对预设周期内的目标对象信息和所述目标对象信息对应的用户的搜索行为信息进行处理,预测得到检测结果包括:获取所述预设周期内的目标...

【专利技术属性】
技术研发人员:贺国秀康杨杨蒋卓人孙常龙张琼司罗
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1