搜索引擎的数据处理方法及装置制造方法及图纸

技术编号：9794574 阅读：152 留言：0更新日期：2014-03-21 19:13

本发明专利技术公开了一种搜索引擎的数据处理方法及装置。其中，该方法包括：获取历史用户使用搜索引擎的日志记录，其中，日志记录包括：用户行为数据、搜索对象属性数据以及搜索结果的特征数据；根据用户行为数据和搜索对象属性数据进行线性回归计算，生成用户的搜索偏好值；将用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理，得到用户的搜索偏好与所有搜索结果的匹配度；提取所有搜索结果的匹配度中满足预定条件匹配度，获取历史用户的搜索结果。通过本发明专利技术，能够实现提高搜索引擎的搜索效率，提高搜索结果准确度的效果。

全部详细技术资料下载

【技术实现步骤摘要】
搜索引擎的数据处理方法及装置
本专利技术涉及计算机搜索引擎领域，具体而言，涉及一种搜索引擎的数据处理方法及装置。
技术介绍
现有技术提供的搜索引擎需要用户输入搜索词，搜索引擎在获取搜索词之后，会根据搜索词和文档相关度得到文档排序。该搜索引擎的排序必须基于用户的输入搜索词来进行搜索，当用户没有明确目标时是不能精确的给出搜索词的，此时系统无法生成排序列表。在上述搜索词不明确，或者没有匹配文档的情况下，可以通过人工编目的排行榜来获取搜索结果，具体的，可以通过人工在后台设置文档的线上排序。这种人工编目的排行榜需要人工维护线上排序，耗时耗力，且人工维护搜索结果具有个人因素在里边，搜索结果不准确，且当搜索对象的数目达到一定程度，人工无法维护。目前针对相关技术的在搜索引擎无法获知搜索词时，通过人工维护后台导致搜索效率低、搜索结果不准确的问题，目前尚未提出有效的解决方案。
技术实现思路
针对相关技术的在搜索引擎无法获知搜索词时，通过人工维护后台导致搜索效率低、搜索结果不准确的问题，目前尚未提出有效的解决方案，为此，本专利技术的主要目的在于提供一种搜索引擎的数据处理方法及装置，以解决上述问题。为了实现上述目的，根据本专利技术的一个方面，提供了一种搜索引擎的数据处理方法，该方法包括:获取历史用户使用搜索引擎的日志记录，其中，日志记录包括:用户行为数据、搜索对象属性数据以及搜索结果的特征数据；根据用户行为数据和搜索对象属性数据进行线性回归计算，生成用户的搜索偏好值；将用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理，得到用户的搜索偏好与所有搜索结果的匹配度；提取所有...

【技术保护点】
一种搜索引擎的数据处理方法，其特征在于，包括：获取历史用户使用搜索引擎的日志记录，其中，所述日志记录包括：用户行为数据、搜索对象属性数据以及搜索结果的特征数据；根据所述用户行为数据和所述搜索对象属性数据进行线性回归计算，生成用户的搜索偏好值；将所述用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理，得到所述用户的搜索偏好与所有搜索结果的匹配度；提取所有搜索结果的匹配度中满足预定条件匹配度，获取所述历史用户的搜索结果。

【技术特征摘要】
1.一种搜索引擎的数据处理方法，其特征在于，包括: 获取历史用户使用搜索引擎的日志记录，其中，所述日志记录包括:用户行为数据、搜索对象属性数据以及搜索结果的特征数据；根据所述用户行为数据和所述搜索对象属性数据进行线性回归计算，生成用户的搜索偏好值；将所述用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理，得到所述用户的搜索偏好与所有搜索结果的匹配度；提取所有搜索结果的匹配度中满足预定条件匹配度，获取所述历史用户的搜索结果。2.根据权利要求1所述的方法，其特征在于，根据所述用户行为数据和所述搜索对象属性数据进行线性回归计算，生成用户的搜索偏好值的步骤包括: 通过如下公式计算得到所述用户的搜索偏好值Q:Q=Ax+By，其中，X为所述用户行为数据，y为所述搜索对象属性数据，A、B为常数；其中，在所述用户行为数据包括多个行为参数xi，所述搜索对象属性数据包括多个属性参数 yi 的情况下，Q=Axl+Ax2+Axi+......+Byl+By2+Byi+......，i 为自然数。3.根据权利要求1或2所述的方法，其特征在于，在根据所述用户行为数据和所述搜索对象属性数据进行线性回归计算，生成用户的搜索偏好值之后，所述方法还包括: 通过单个用户的偏好值与所有用户的总体偏好值的总体平均值进行求除的结果对所述用户的搜索偏好值进行修正处理，生成所述搜索偏好值的可信度；判断所述搜索偏好值的可信度是否小于等于可信度阈值；其中，在所述搜索偏好值的可信度小于等于可信度阈值的情况下，根据所述用户行为数据进行聚类处理，并根据聚类结果返回执行线形回归计算，生成修正后的搜索偏好值；在所述搜索偏好值的可信度大于可信度阈值的情况下，保存当前的搜索偏好值。4.根据权利要求1所述的方法，其特征在于，将所述用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理，得到所述用户的搜索偏好与所有搜索结果的匹配度的步骤包括: 获取所述每个搜索结果的特征数据对应的文本向量；获取所述用户的搜索偏好值对应的数据向量；将所述每个搜索结果的特征数据对应的文本向量分别与所述搜索偏好值对应的数据向量进行余弦计算，得到每个文本向量与所述数据向量之间的距离值；保存所述距离值，得到所述用户的搜索偏好与所有搜索结果的匹配度。5.根据权利要求4所述的方法，其特征在于，在得到所述用户的搜索偏好与所有搜索结果的匹配度之前，所述方法还包括: 根据所述搜索结果的类型对所述搜索结果的特征数据进行聚类处理，得到修正后的所述搜索结果的偏好。6.根据权利要求1所述的方法，其特征在于，在获取历史用户使用搜索引擎的日志记录之前，所述方法还包括: 读取当前登录用户的特征信息；使用所述当前登录用户的特征信息在数据库中进行查询，得到与当前登录用户具有相同特征信息的历史登陆用户；其中，将所述历史登陆用户的历史日志记录作为所述日志记录。7.根据权利要求6所述的方法，其特征在于，在提取所有搜索结果的匹配度中满足预定条件匹配度，获取所述历史用户的搜索结果之后，所述方法还包括: 按照所述匹配度对所有的搜索结果进行排序，得到所述每个搜索结果的排序结果；在搜索引擎中按照所述排序结果显示每个搜索结果。8.根据权利要求1所述的方法，其特征在于，在获取所述日志记录之后，所述方法还包括:对所述日志记录中的用户行为...

【专利技术属性】
技术研发人员：王学蕾，
申请(专利权)人：北京趣拿软件科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人