数据处理方法和系统技术方案

技术编号:16399279 阅读:29 留言:0更新日期:2017-10-17 19:40
本公开提供了一种数据处理方法,包括:获取至少一个用户在第一时间段内的搜索信息,所述搜索信息包括多个搜索词以及所述搜索词对应的搜索时间;将所述多个搜索词中属于相同用户的任意两个不同的搜索词按照相同的搜索时间顺序组成至少一个搜索词对;以及计算所述至少一个搜索词对中的每个搜索词对的关联分,得到至少一个第一分值,所述第一分值与对应的搜索词对的两个搜索词对应的所述搜索时间的时间间隔相关。

Data processing method and system

The invention provides a data processing method, including: obtaining the search information of at least one user in the first period of time, the search information including a plurality of search terms and the search word corresponding to the search time; any of the plurality of search words belonging to the same user. Two different search terms at the same time the search sequence composed of at least a search word; and the calculation of the at least one search term for each of the search related word pairs, obtain at least a first score, the first score and the corresponding word search two search word pairs corresponding to the search time interval correlation.

【技术实现步骤摘要】
数据处理方法和系统
本公开涉及互联网
,更具体地,涉及一种数据处理方法和系统。
技术介绍
随着互联网技术的快速发展,通过网络平台进行信息搜索或者交易等活动以其低成本、高效率的优势获得了越来越多的用户青睐。用户在使用网络平台进行信息搜索的过程中,经常会出现误输入、或者搜索结果无法满足用户的搜索目的、或者用户想要连续搜索多个相关信息等情况,在这种情况下,用户则需要重新进行输入,增加了用户的工作量,降低了用户的体验感。此时,服务提供商希望为用户提供更加个性化的服务,在展示相关的搜索结果时,也理解用户的搜索意图,为其推荐相关的搜索词,减少用户再次输入的工作量,吸引用户地进一步搜索。然而,在实现本专利技术构思的过程中,专利技术人发现现有技术中至少存在如下问题,在确定两个搜索词的关联度时,通常使用语义分析的方法,该种方法对用户输入的搜索词要求严格,如果用户存在误输入的情况则会导致误判,并且不能为用户提供语义上没有关联,但是经常被用户一起搜索的词语。
技术实现思路
有鉴于此,本公开提供了一种更加准确的确定搜索词之间关联度的数据处理方法和系统。本公开的一个方面提供了一种数据处理方法,包括:获取至少本文档来自技高网...
数据处理方法和系统

【技术保护点】
一种数据处理方法,包括:获取至少一个用户在第一时间段内的搜索信息,所述搜索信息包括多个搜索词以及所述搜索词对应的搜索时间;将所述多个搜索词中属于相同用户的任意两个不同的搜索词按照相同的搜索时间顺序组成至少一个搜索词对;以及计算所述至少一个搜索词对中的每个搜索词对的关联分,得到至少一个第一分值,所述第一分值与对应的搜索词对的两个搜索词对应的所述搜索时间的时间间隔相关。

【技术特征摘要】
1.一种数据处理方法,包括:获取至少一个用户在第一时间段内的搜索信息,所述搜索信息包括多个搜索词以及所述搜索词对应的搜索时间;将所述多个搜索词中属于相同用户的任意两个不同的搜索词按照相同的搜索时间顺序组成至少一个搜索词对;以及计算所述至少一个搜索词对中的每个搜索词对的关联分,得到至少一个第一分值,所述第一分值与对应的搜索词对的两个搜索词对应的所述搜索时间的时间间隔相关。2.根据权利要求1所述的方法,还包括:将所述至少一个搜索词对中相同的搜索词对对应的至少一个第一分值进行累加,得到第二分值。3.根据权利要求2所述的方法,其中,所述将所述至少一个搜索词对中相同的搜索词对对应的至少一个第一分值进行累加,包括:将属于相同用户的相同的搜索词对中所述时间间隔在满足预设条件下最短的搜索词对对应的关联分作为所述用户的所述搜索词对的第一分值;将属于不同用户的所述相同的搜索词对的所述第一分值进行累加,得到第二分值。4.根据权利要求2所述的方法,还包括:确定所述第二分值对应的搜索词对在第二时间段内的关联分,得到第三分值;将所述第三分值与所述第二分值累加,得到第四分值。5.根据权利要求4所述的方法,其中,所述将所述第三分值与所述第二分值累加包括加权累加,所述第三分值的系数小于所述第二分值的系数。6.根据权利要求4或5所述的方法,还包括:存储所述第四分值以及所述第四分值对应的搜索词对;和/或根据所述至少一个搜索词对,以及所述搜索词对对应的第四分值建立查询表。7.根据权利要求6所述的方法,还包括:获取用户搜索请求,所述搜索请求包括与用户搜索相关的相关搜索词;查询所述至少一个搜索词对中包含有所述相关搜索词的关联搜索词对,其中,所述关联搜索词对包括所述相关搜索词的搜索时间在先;以及根据所述关联搜索词对对应的第四分值的大小,将所述关联搜索词对中非所述相关搜索词的搜索词按顺序返回给用户。8.一种数据处理系统,包括:获取模块,获取至少一个用户在第一时间段内的搜索信息,所述搜索信息包括多个搜索词以及所述搜索词对应的搜索时间;组对模块,将所述多个搜索词中属于相同用户的任意两个不同的搜索词按照相同的搜...

【专利技术属性】
技术研发人员:李萧萧郝晖邵荣防谢群群薛儒璇陈贱辉徐雷洋
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1