数据处理方法及装置、电子设备、计算机可读介质制造方法及图纸

技术编号:18525864 阅读:34 留言:0更新日期:2018-07-25 12:43
本公开涉及一种数据处理方法及装置、电子设备和计算机可读介质。属于互联网技术领域,该数据处理方法包括:统计历史用户行为数据获取训练数据,其中所述训练数据包括训练门店的基础信息及其相应的训练用户信息,所述训练门店的基础信息中包括训练门店的地理位置信息;根据所述训练数据训练神经网络模型;根据候选门店的基础信息及训练好的神经网络模型进行预测,获得相应的候选用户信息,其中所述候选门店的基础信息中包括候选门店的地理位置信息。本公开能够实现地理位置约束的搜索结果召回。

【技术实现步骤摘要】
数据处理方法及装置、电子设备、计算机可读介质
本公开涉及互联网
,具体而言,涉及一种数据处理方法及装置、电子设备、计算机可读介质。
技术介绍
关键词广告是搜索广告中非常重要的一种形态,用户在给定搜索查询(query)之后,返回相关的一些排序广告结果内容。整个关键词广告中最重要的一环是广告的召回,也就是确定满足相关性的广告候选,在此之后才会进行结果排序等过程。召回结果的相关性和数量都对整个广告结果质量有着至关重要的作用。在O2O(OnlineToOffline,在线离线/线上到线下)场景下的搜索广告召回环节有独特的相关性要求,对地理位置是非常敏感的。搜索广告召回阶段,目前常用的方法为:1.文本语义匹配召回在电子商务和搜索的场景下,搜索广告的召回方法通常是,根据用户请求query和候选广告的语义等匹配度,匹配和召回满足相关性的广告结果。但是,这种文本语义匹配召回方式只基于文本语义相似度进行召回,一方面,无法满足O2O这种位置限定条件下的约束,从而部分召回结果相关性比较差;另一方面,因为没有条件约束,召回结果的量会比较多,结果排序阶段的性能压力比较大。2.条件门槛截断召回对于O2O等有特殊限定的广告场景,通常按照正常的query分词和语义匹配等方法,从广告库中找出符合要求的广告,再基于其余限定条件(比如在O2O场景下,会有不同的品类等)去设定不同的门槛(例如距离),满足门槛要求的结果作为满足地理位置相关的结果召回。其中距离门槛的设定会和非常多的因素有关系,通常的做法是根据历史数据做统计分析,设定平均门槛进行截断和准入。在O2O场景下会有距离约束条件,但是绝对门槛并不好确定,较大的距离门槛会导致后续排序等阶段计算性能压力大,较小的距离门槛可能会漏召回一些原本满足条件的候选广告。
技术实现思路
本公开提供一种数据处理方法及装置、电子设备、计算机可读介质,能够至少部分地或者全部地解决上述现有技术中存在的问题。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。根据本公开的一个方面,提供一种数据处理方法,包括:统计历史用户行为数据获取训练数据,其中所述训练数据包括训练门店的基础信息及其相应的训练用户信息,所述训练门店的基础信息中包括训练门店的地理位置信息;根据所述训练数据训练神经网络模型;根据候选门店的基础信息及训练好的神经网络模型进行预测,获得相应的候选用户信息,其中所述候选门店的基础信息中包括候选门店的地理位置信息。在本公开的一种示例性实施例中,所述统计历史用户行为数据获取训练数据包括:对所述历史用户点击行为数据进行统计,将点击频次超过预设阈值的训练门店的基础信息及其相应的训练用户信息组成数据对;将数据对中的训练门店的基础信息分词后获得训练输入序列,并将数据对中的训练用户信息分词后获得训练输出序列。在本公开的一种示例性实施例中,所述根据候选门店的基础信息及训练好的神经网络模型进行预测,获得相应的候选用户信息包括:将所述候选门店的基础信息分词后获得候选输入序列;将所述候选输入序列输入至序列好的序列到序列的神经网络模型中,获得相应的候选用户信息。在本公开的一种示例性实施例中,所述训练数据还包括训练门店的经纬度、训练用户与相应的训练门店之间的距离。在本公开的一种示例性实施例中,所述统计历史用户行为数据获取训练数据还包括:根据训练门店的经纬度获得训练门店的geohash序列;对所述训练用户与相应的训练门店之间的距离进行离散化处理获得离散距离值;将训练门店的geohash序列增加至所述训练输入序列,并将所述离散距离值增加至所述训练输出序列。在本公开的一种示例性实施例中,所述方法还包括:采用beamsearch算法扩展候选用户信息;和/或将所述候选用户信息中的满足预设条件的单个分词词项作为候选用户信息。在本公开的一种示例性实施例中,所述方法还包括:获取当前用户信息;根据所述当前用户信息获取匹配的候选用户信息;根据匹配的候选用户信息获得召回的候选门店。在本公开的一种示例性实施例中,所述方法还包括:获得召回的候选门店及相应的候选用户之间的离散距离值;根据所述离散距离值获得所述当前用户的约束距离,对召回的候选门店进行筛选。在本公开的一种示例性实施例中,所述历史用户行为数据包括历史用户点击行为数据,门店的基础信息中的地理位置信息包括门店的地址;用户信息包括用户输入的查询信息。在本公开的一种示例性实施例中,门店的基础信息还包括门店的标题、描述、品类中的一种或者多种,其中门店的基础信息中的地理位置信息还包括门店所属商圈。根据本公开的一个方面,提供一种数据处理装置,包括:训练数据获取模块,用于统计历史用户行为数据获取训练数据,其中所述训练数据包括训练门店的基础信息及其相应的训练用户信息,所述训练门店的基础信息中包括训练门店的地理位置信息;模型训练模块,用于根据所述训练数据训练神经网络模型;结果预测模块,用于根据候选门店的基础信息及训练好的神经网络模型进行预测,获得相应的候选用户信息,其中所述候选门店的基础信息中包括候选门店的地理位置信息。根据本公开的一个方面,提供一种电子设备,包括存储器、处理器及存储在该存储器上并可在该处理器上运行的计算机程序,该程序被该处理器执行时实现上述任一实施例中的方法步骤。根据本公开的一个方面,提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例中的方法步骤。根据本公开某些实施例中的数据处理方法及装置、电子设备、计算机可读介质,基于历史用户行为数据获取训练数据,其中训练数据中的训练门店的基础信息包括训练门店的地理位置信息;再通过所述训练数据训练神经网络模型;然后通过该训练好的神经网络模型可以预测候选用户信息,从而能够实现地理位置约束的搜索结果召回。应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。附图说明通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。图1是根据一示例性实施方式示出的一种数据处理方法的流程图。图2是根据一示例性实施方式示出的一种神经网络模型训练的结构示意图。图3是根据一示例性实施方式示出的另一种数据处理方法的流程图。图4是根据一示例性实施方式示出的另一种神经网络模型训练的结构示意图。图5是根据一示例性实施方式示出的一种数据处理装置的示意图。图6是根据一示例性实施方式示出的一种电子设备的示意图。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、本文档来自技高网
...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:统计历史用户行为数据获取训练数据,其中所述训练数据包括训练门店的基础信息及其相应的训练用户信息,所述训练门店的基础信息中包括训练门店的地理位置信息;根据所述训练数据训练神经网络模型;根据候选门店的基础信息及训练好的神经网络模型进行预测,获得相应的候选用户信息,其中所述候选门店的基础信息中包括候选门店的地理位置信息。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:统计历史用户行为数据获取训练数据,其中所述训练数据包括训练门店的基础信息及其相应的训练用户信息,所述训练门店的基础信息中包括训练门店的地理位置信息;根据所述训练数据训练神经网络模型;根据候选门店的基础信息及训练好的神经网络模型进行预测,获得相应的候选用户信息,其中所述候选门店的基础信息中包括候选门店的地理位置信息。2.根据权利要求1所述的数据处理方法,其特征在于,所述统计历史用户行为数据获取训练数据包括:对所述历史用户行为数据进行统计,将点击频次超过预设阈值的训练门店的基础信息及其相应的训练用户信息组成数据对;将数据对中的训练门店的基础信息分词后获得训练输入序列,并将数据对中的训练用户信息分词后获得训练输出序列。3.根据权利要求1所述的数据处理方法,其特征在于,所述根据候选门店的基础信息及训练好的神经网络模型进行预测,获得相应的候选用户信息包括:将所述候选门店的基础信息分词后获得候选输入序列;将所述候选输入序列输入至训练好的序列到序列的神经网络模型中,获得相应的候选用户信息。4.根据权利要求2所述的数据处理方法,其特征在于,所述训练数据还包括训练门店的经纬度、训练用户与相应的训练门店之间的距离。5.根据权利要求4所述的数据处理方法,其特征在于,所述统计历史用户行为数据获取训练数据还包括:根据训练门店的经纬度获得训练门店的geohash序列;对所述训练用户与相应的训练门店之间的距离进行离散化处理获得离散距离值;将训练门店的geohash序列增加...

【专利技术属性】
技术研发人员:姚强
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1