搜索引擎的数据处理方法及装置制造方法及图纸

技术编号:9794574 阅读:152 留言:0更新日期:2014-03-21 19:13
本发明专利技术公开了一种搜索引擎的数据处理方法及装置。其中,该方法包括:获取历史用户使用搜索引擎的日志记录,其中,日志记录包括:用户行为数据、搜索对象属性数据以及搜索结果的特征数据;根据用户行为数据和搜索对象属性数据进行线性回归计算,生成用户的搜索偏好值;将用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理,得到用户的搜索偏好与所有搜索结果的匹配度;提取所有搜索结果的匹配度中满足预定条件匹配度,获取历史用户的搜索结果。通过本发明专利技术,能够实现提高搜索引擎的搜索效率,提高搜索结果准确度的效果。

【技术实现步骤摘要】
搜索引擎的数据处理方法及装置
本专利技术涉及计算机搜索引擎领域,具体而言,涉及一种搜索引擎的数据处理方法及装置。
技术介绍
现有技术提供的搜索引擎需要用户输入搜索词,搜索引擎在获取搜索词之后,会根据搜索词和文档相关度得到文档排序。该搜索引擎的排序必须基于用户的输入搜索词来进行搜索,当用户没有明确目标时是不能精确的给出搜索词的,此时系统无法生成排序列表。在上述搜索词不明确,或者没有匹配文档的情况下,可以通过人工编目的排行榜来获取搜索结果,具体的,可以通过人工在后台设置文档的线上排序。这种人工编目的排行榜需要人工维护线上排序,耗时耗力,且人工维护搜索结果具有个人因素在里边,搜索结果不准确,且当搜索对象的数目达到一定程度,人工无法维护。目前针对相关技术的在搜索引擎无法获知搜索词时,通过人工维护后台导致搜索效率低、搜索结果不准确的问题,目前尚未提出有效的解决方案。
技术实现思路
针对相关技术的在搜索引擎无法获知搜索词时,通过人工维护后台导致搜索效率低、搜索结果不准确的问题,目前尚未提出有效的解决方案,为此,本专利技术的主要目的在于提供一种搜索引擎的数据处理方法及装置,以解决上述问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种搜索引擎的数据处理方法,该方法包括:获取历史用户使用搜索引擎的日志记录,其中,日志记录包括:用户行为数据、搜索对象属性数据以及搜索结果的特征数据;根据用户行为数据和搜索对象属性数据进行线性回归计算,生成用户的搜索偏好值;将用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理,得到用户的搜索偏好与所有搜索结果的匹配度;提取所有搜索结果的匹配度中满足预定条件匹配度,获取历史用户的搜索结果。为了实现上述目的,根据本专利技术的另一方面,提供了一种搜索引擎的数据处理装置,该装置包括:获取模块,用于获取历史用户使用搜索引擎的日志记录,其中,日志记录包括:用户行为数据、搜索对象属性数据以及搜索结果的特征数据;处理模块,用于根据用户行为数据和搜索对象属性数据进行线性回归计算,生成用户的搜索偏好值;匹配模块,用于将用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理,得到用户的搜索偏好与所有搜索结果的匹配度;提取模块,用于提取所有搜索结果的匹配度中满足预定条件匹配度,获取历史用户的搜索结果。通过本专利技术,采用获取历史用户使用搜索引擎的日志记录,其中,日志记录包括:用户行为数据、搜索对象属性数据以及搜索结果的特征数据;根据用户行为数据和搜索对象属性数据进行线性回归计算,生成用户的搜索偏好值;将用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理,得到用户的搜索偏好与所有搜索结果的匹配度;提取所有搜索结果的匹配度中满足预定条件匹配度,获取历史用户的搜索结果,解决了相关现有技术的在搜索引擎无法获知搜索词时,通过人工维护后台导致搜索效率低、搜索结果不准确的问题,进而实现提高搜索引擎的搜索效率,提高搜索结果准确度的效果。【附图说明】此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的搜索引擎的数据处理方法的流程示意图;图2是根据本专利技术实施例的搜索引擎的数据处理方法的详细流程示意图;图3是根据本专利技术实施例的搜索引擎的数据处理装置的结构示意图。【具体实施方式】需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。本申请利用机器学习和数据挖掘技术来实现,在无法获取当前登录用户的搜索目标时,也可以直接在搜索引擎中显示搜索结果。本申请涉及到的机器学习(Machine Learning)是本申请的核心技术,是指研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,机器学习主要使用归纳、综合而不是演绎。数据挖掘Data Mining是一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法。而本申请的方案最后要将计算得到的搜索结果进行排序Ranking,排序大多应用在电子商务中,为了销售更多的商品和让消费者更容易找到他想找到的商品,需要在商品展现时给商品安排展现的顺序。下面就本申请利用上述技术的方案进行详细描述。实施例一:在其最基本的配置中,图1是根据本专利技术实施例的搜索引擎的数据处理方法的流程示意图;图2是根据本专利技术实施例的搜索引擎的数据处理方法的详细流程示意图。如图1和2所示,该方法可以包括如下步骤:步骤S10,获取历史用户使用搜索引擎的日志记录,其中,日志记录包括:用户行为数据、搜索对象属性数据以及搜索结果的特征数据。步骤S30,根据用户行为数据和搜索对象属性数据进行线性回归计算,生成用户的搜索偏好值。步骤S50,将用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理,得到用户的搜索偏好与所有搜索结果的匹配度。步骤S70,提取所有搜索结果的匹配度中满足预定条件匹配度,获取历史用户的搜索结果。本申请上述实施例中,主要利用了机器学习来获取后台系统中已经保存的日志记录,该日志记录保存了历史用户使用搜索引擎进行搜索操作的用户行为数据,以及相应的搜索对象的属性数据和搜索结果的特征数据,通过对日志记录中上述数据进行分析,可以获知历史用户的搜索结果来学习该种类型的用户的搜索排序结果,从而在相同类型的用户使用搜索引擎时,可以无需获知搜索词,系统便可以提供相应的搜索结果,从而解决了相关现有技术的在搜索引擎无法获知搜索词时,通过人工维护后台导致搜索效率低、搜索结果不准确的问题,进而实现提高搜索引擎的搜索效率,提高搜索结果准确度的效果。具体的,本申请上述实施例的日志记录可以是历史用户使用搜索引擎之后,生成的历史日志记录;搜索对象可以是历史用户通过搜索引擎所要搜索的产品;搜索结果可以是指历史用户使用搜索引擎对搜索对象进行搜索而生成的搜索对象。上述实施例根据历史行为数据分析历史用户对搜索对象的搜索结果,历史行为数据log可以包含用户的各类行为数据,比如浏览,点击等,每条记录log通过标记&来分割各类行为发生时的快照,比如&source=首页 &departure=北京等。以用户通过搜索引擎对产品进行的各种操作行为,得到相关搜索结果为例,系统后台收集到的用户日志记录可以是用于在预定时间段内记录的行为数据,例如可以是:浏览,点击,购买等;搜索对象的属性数据(例如产品的属性数据)可以包括搜索对象的特征,比如标题,价格等。本申请上述实施例中,在步骤SlO获取历史用户使用搜索引擎的日志记录之前,还可以包括如下实施步骤:步骤S101,读取当前登录用户的特征信息。步骤S102,使用当前登录用户的特征信息在数据库中进行查询,得到与当前登录用户具有相同特征信息的历史登陆用户;其中,历史登陆用户的历史日志记录作为日志记录。本申请上述步骤SlO-步骤S70实现了根据历史信息进行机器学习,得到了一类用户的搜索结果,并将结果保存在数据库中。上述步骤SlOl和步骤S102实现本文档来自技高网...

【技术保护点】
一种搜索引擎的数据处理方法,其特征在于,包括:获取历史用户使用搜索引擎的日志记录,其中,所述日志记录包括:用户行为数据、搜索对象属性数据以及搜索结果的特征数据;根据所述用户行为数据和所述搜索对象属性数据进行线性回归计算,生成用户的搜索偏好值;将所述用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理,得到所述用户的搜索偏好与所有搜索结果的匹配度;提取所有搜索结果的匹配度中满足预定条件匹配度,获取所述历史用户的搜索结果。

【技术特征摘要】
1.一种搜索引擎的数据处理方法,其特征在于,包括: 获取历史用户使用搜索引擎的日志记录,其中,所述日志记录包括:用户行为数据、搜索对象属性数据以及搜索结果的特征数据; 根据所述用户行为数据和所述搜索对象属性数据进行线性回归计算,生成用户的搜索偏好值; 将所述用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理,得到所述用户的搜索偏好与所有搜索结果的匹配度; 提取所有搜索结果的匹配度中满足预定条件匹配度,获取所述历史用户的搜索结果。2.根据权利要求1所述的方法,其特征在于,根据所述用户行为数据和所述搜索对象属性数据进行线性回归计算,生成用户的搜索偏好值的步骤包括: 通过如下公式计算得到所述用户的搜索偏好值Q:Q=Ax+By,其中,X为所述用户行为数据,y为所述搜索对象属性数据,A、B为常数; 其中,在所述用户行为数据包括多个行为参数xi,所述搜索对象属性数据包括多个属性参数 yi 的情况下,Q=Axl+Ax2+Axi+......+Byl+By2+Byi+......,i 为自然数。3.根据权利要求1或2所述的方法,其特征在于,在根据所述用户行为数据和所述搜索对象属性数据进行线性回归计算,生成用户的搜索偏好值之后,所述方法还包括: 通过单个用户的偏好值与 所有用户的总体偏好值的总体平均值进行求除的结果对所述用户的搜索偏好值进行修正处理,生成所述搜索偏好值的可信度; 判断所述搜索偏好值的可信度是否小于等于可信度阈值;其中, 在所述搜索偏好值的可信度小于等于可信度阈值的情况下,根据所述用户行为数据进行聚类处理,并根据聚类结果返回执行线形回归计算,生成修正后的搜索偏好值; 在所述搜索偏好值的可信度大于可信度阈值的情况下,保存当前的搜索偏好值。4.根据权利要求1所述的方法,其特征在于,将所述用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理,得到所述用户的搜索偏好与所有搜索结果的匹配度的步骤包括: 获取所述每个搜索结果的特征数据对应的文本向量; 获取所述用户的搜索偏好值对应的数据向量; 将所述每个搜索结果的特征数据对应的文本向量分别与所述搜索偏好值对应的数据向量进行余弦计算,得到每个文本向量与所述数据向量之间的距离值; 保存所述距离值,得到所述用户的搜索偏好与所有搜索结果的匹配度。5.根据权利要求4所述的方法,其特征在于,在得到所述用户的搜索偏好与所有搜索结果的匹配度之前,所述方法还包括: 根据所述搜索结果的类型对所述搜索结果的特征数据进行聚类处理,得到修正后的所述搜索结果的偏好。6.根据权利要求1所述的方法,其特征在于,在获取历史用户使用搜索引擎的日志记录之前,所述方法还包括: 读取当前登录用户的特征信息; 使用所述当前登录用户的特征信息在数据库中进行查询,得到与当前登录用户具有相同特征信息的历史登陆用户;其中,将所述历史登陆用户的历史日志记录作为所述日志记录。7.根据权利要求6所述的方法,其特征在于,在提取所有搜索结果的匹配度中满足预定条件匹配度,获取所述历史用户的搜索结果之后,所述方法还包括: 按照所述匹配度对所有的搜索结果进行排序,得到所述每个搜索结果的排序结果; 在搜索引擎中按照所述排序结果显示每个搜索结果。8.根据权利要求1所述的方法,其特征在于,在获取所述日志记录之后,所述方法还包括:对所述日志记录中的用户行为...

【专利技术属性】
技术研发人员:王学蕾
申请(专利权)人:北京趣拿软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1