基于电子商务的数据处理方法与装置制造方法及图纸

技术编号:16500277 阅读:63 留言:0更新日期:2017-11-04 11:26
本公开提供一种基于电子商务的数据处理方法与装置。数据处理方法包括:获取数据,所述数据包括用户搜索日志和物流信息;根据所述数据获取基于地域的关键词权重值降序排名;根据所述基于地域的关键词权重值降序排名获取关键词在各地域的特征值;根据所述特征值标注关键词对应的热点地域。本公开提供的基于电子商务的数据处理方法能够挖掘出关键词的地域特征。

Data processing method and device based on Electronic Commerce

The present invention provides a processing method and device based on the data of the electronic commerce. The data processing method includes: acquiring data, the data including user search logs and logistics information; according to the data of the weight of keywords ranking based on regional value descending; according to the weight of keywords regional value descending rankings for keywords in value based on the characteristics of each region; according to the characteristic value of the corresponding annotation keywords hot region. The data processing method based on electronic commerce provided by this publication can dig out the regional features of keywords.

【技术实现步骤摘要】
基于电子商务的数据处理方法与装置
本公开涉及数据挖掘
,具体而言,涉及一种基于电子商务的数据处理方法与装置。
技术介绍
随着电商业务的发展,传统的“千人一面”搜索推荐系统已不能有效的满足用户需求,且我国幅员辽阔,各地域在气候、习俗、环境等方面存在较大的差异。目前电商的搜索系统主要根据商品与用户搜索关键词的文本相关性、商品本身信息质量等维度对商品进行展示排序,不涉及地域特征;商品推荐系统则主要依据用户过往行为、平台促销活动、人工运营等方式确定推荐商品,也没有将地域特征纳入推荐因子。因此,在现有的数据处理模式下,往往存在着搜索结果不能精准的贴近用户需求等问题。例如北方空调大部分需冷暖模式,而在华南地区大部分只需制冷模式,当华南地区的用户搜索空调时很难获取到精准贴合需求的搜索结果。此外,不纳入地域特征的推荐,也会导致流量转换损失,甚至引起用户反感,例如某个时期防雾霾口罩在北方热销,但推荐系统却将该类产品推荐给海南等地的用户。最后,在地方性传统节假日期间,地方特产、服饰等具有区域性的高销量,不纳入地域特征的搜索推荐系统对此“无能为力”。因此,需要一种能够对商品的地域特征进行挖掘的数据处理方法。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开的目的在于提供一种基于电子商务的数据处理方法与装置,用于从用户的搜索行为日志以及商品的物流信息中,通过对数据进行清理、集成、计算等处理,输出关键词的地域特征画像,给搜索、推荐、广告系统提供基础数据支撑。根据本公开实施例的第一方面,提供一种基于电子商务的数据处理方法,包括:获取数据,数据包括用户搜索日志和物流信息;根据数据获取基于地域的关键词权重值降序排名;根据基于地域的关键词权重值降序排名获取关键词在各地域的特征值;根据特征值标注关键词对应的热点地域。在本公开的一种示例性实施例中,获取基于地域的关键词权重值降序排名包括:根据搜索日志获取基于地域的关键词搜索PV;根据物流信息获取基于地域的关键词商品数;基于地域将关键词搜索PV与第一系数的乘积和关键词商品数与第二系数的乘积相加作为关键词在地域的权重值;去除权重值低于阈值的关键词,基于地域对关键词按权重值进行降序排名。在本公开的一种示例性实施例中,根据基于地域的关键词权重值降序排名获取关键词在各地域的特征值包括:获取地域的总权重值降序排名;获取基于全部地域的关键词权重值降序排名;对于各地域,获取权重值既在地域排名前N又在全部地域排名前xN的关键词,N为自然数,x为扩展系数;基于每一关键词以及每一地域计算特征值:(一地域的一关键词的权重值/地域的总权重值)*(总地域数/关键词在地域排名前N的地域数)。在本公开的一种示例性实施例中,标注关键词对应的热点地域包括:获取一关键词在各地域的特征值的方差;去除方差小于阈值的地域,获取剩余地域的方差降序排名;根据方差降序排名标注关键词对应的热点地域。在本公开的一种示例性实施例中,获取数据包括去除数据中的爬虫数据、黑名单用户数据、黑名单IP数据、无法判断来源的数据以及长尾关键词。根据本公开的一个方面,提供一种基于电子商务的数据处理装置,包括:数据清洗模块,设置为获取数据,数据包括用户搜索日志和物流信息;数据集成模块,设置为根据数据获取基于地域的关键词权重值降序排名;数据计算模块,设置为根据基于地域的关键词权重值降序排名获取关键词在各地域的特征值;数据标注模块,设置为根据特征值标注关键词对应的热点地域。在本公开的一种示例性实施例中,数据集成模块包括:元素获取单元,设置为根据搜索日志获取基于地域的关键词搜索PV,以及根据物流信息获取基于地域的关键词商品数;权重值计算单元,设置为基于地域将关键词搜索PV与第一系数的乘积和关键词商品数与第二系数的乘积相加作为关键词在地域的权重值;权重值排名单元,设置为去除权重值低于阈值的关键词,基于地域对关键词按权重值进行降序排名。在本公开的一种示例性实施例中,数据计算模块包括:第一权重值计算单元,设置为获取地域的总权重值降序排名;第二权重值计算单元,设置为获取基于全部地域的关键词权重值降序排名;关键词筛选单元,设置为对于各地域,获取权重值既在地域排名前N又在全部地域排名前xN的关键词,N为自然数,x为扩展系数;计算单元,设置为基于每一关键词以及每一地域计算特征值:(一地域的一关键词的权重值/地域的总权重值)*(总地域数/关键词在地域排名前N的地域数)。在本公开的一种示例性实施例中,数据标注模块包括:方差计算单元,设置为获取一关键词在各地域的特征值的方差;地域排序单元,设置为去除方差小于阈值的地域,获取剩余地域的方差降序排名;地域标注单元,设置为根据方差降序排名标注关键词对应的热点地域。在本公开的一种示例性实施例中,数据清洗模块设置为去除数据中的爬虫数据、黑名单用户数据、黑名单IP数据、无法判断来源的数据以及长尾关键词。根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任意一项的方法步骤。根据本公开的一个方面,提供一种电子设备,包括存储器;以及耦合到所属存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行如上述任意一项的方法。本公开提供的数据处理方法与装置通过对搜索行为及物流信息进行数据清理、集成、特征值计算、热点地域标注等处理,能够真实准确的挖掘出关键词的地域特征,生成关键词地域特征画像,并通过数据滚动保证所挖掘数据的时效性,最终为搜索推荐等业务提供数据支持,有助于构建“千人千面”的个性化搜索推荐系统。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示意性示出本公开示例性实施例中数据处理方法的流程图。图2示意性示出本公开示例性实施例中数据处理方法100中步骤S104的子流程图。图3示意性示出本公开示例性实施例中数据处理方法100中步骤S106的子流程图。图4示意性示出本公开示例性实施例中数据处理方法100中步骤S108的子流程图。图5意性示出本公开一个示例性实施例中一种数据处理装置的方框图。图6意性示出本公开一个示例性实施例中数据处理装置的工作流程示意图。图7意性示出本公开一个示例性实施例中另一种数据处理装置的方框图。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例。相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略特定细节中的一个或更多,或者可以采用其它的方法、组元、装本文档来自技高网...
基于电子商务的数据处理方法与装置

【技术保护点】
一种基于电子商务的数据处理方法,其特征在于,包括:获取数据,所述数据包括用户搜索日志和物流信息;根据所述数据获取基于地域的关键词权重值降序排名;根据所述基于地域的关键词权重值降序排名获取关键词在各地域的特征值;根据所述特征值标注关键词对应的热点地域。

【技术特征摘要】
1.一种基于电子商务的数据处理方法,其特征在于,包括:获取数据,所述数据包括用户搜索日志和物流信息;根据所述数据获取基于地域的关键词权重值降序排名;根据所述基于地域的关键词权重值降序排名获取关键词在各地域的特征值;根据所述特征值标注关键词对应的热点地域。2.如权利要求1所述的数据处理方法,其特征在于,所述获取基于地域的关键词权重值降序排名包括:根据所述搜索日志获取基于地域的关键词搜索PV;根据所述物流信息获取基于地域的关键词商品数;基于地域将所述关键词搜索PV与第一系数的乘积和所述关键词商品数与第二系数的乘积相加作为所述关键词在所述地域的权重值;去除权重值低于阈值的关键词,基于地域对关键词按所述权重值进行降序排名。3.如权利要求1所述的数据处理方法,其特征在于,根据所述基于地域的关键词权重值降序排名获取关键词在各地域的特征值包括:获取地域的总权重值降序排名;获取基于全部地域的关键词权重值降序排名;对于各地域,获取权重值既在地域排名前N又在全部地域排名前xN的关键词,N为自然数,x为扩展系数;基于每一关键词以及每一地域计算特征值:(一地域的一关键词的权重值/所述地域的总权重值)*(总地域数/所述关键词在地域排名前N的地域数)。4.如权利要求1所述的数据处理方法,其特征在于,所述标注关键词对应的热点地域包括:获取一关键词在各地域的特征值的方差;去除方差小于阈值的地域,获取剩余地域的方差降序排名;根据所述方差降序排名标注所述关键词对应的热点地域。5.如权利要求1所述的数据处理方法,其特征在于,所述获取数据包括去除所述数据中的爬虫数据、黑名单用户数据、黑名单IP数据、无法判断来源的数据以及长尾关键词。6.一种基于电子商务的数据处理装置,其特征在于,包括:数据清洗模块,设置为获取数据,所述数据包括用户搜索日志和物流信息;数据集成模块,设置为根据所述数据获取基于地域的关键词权...

【专利技术属性】
技术研发人员:陈贱辉邵荣防郝晖史亚妮谢文晶
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1