网络侧计算机对搜索结果进行排序的数据处理方法技术

技术编号:10292107 阅读:178 留言:0更新日期:2014-08-06 19:38
本发明专利技术提供一种网络侧计算机对搜索结果进行排序的数据处理方法。所述方法包括:网络侧计算机接收用户终端发送的搜索请求,所述搜索请求携带有用户欲搜索关键词;所述网络侧计算机根据所述关键词,搜索得到文档数据;所述网络侧计算机获取所述关键词与所述文档数据相关的相关参数;所述网络侧计算机提取所述文档数据的完整度权重;所述网络侧计算机根据所述相关参数及完整度权重,计算所述文档数据的排序权重;所述网络侧计算机根据所述排序权重对所述文档数据进行排序,并向所述用户终端返回排序结果。较现有技术,采用本发明专利技术实施例提供的所述方法得出的排序结果的有效性更高。

【技术实现步骤摘要】
网络侧计算机对搜索结果进行排序的数据处理方法
本专利技术涉及数据处理技术,尤其涉及一种网络侧计算机对搜索结果进行排序的数据处理方法。
技术介绍
随着计算机技术的不断发展,人们越来越依靠于通过计算机系统或计算机网络来存储大量的数据。人们通过终端向存储有数据信息的内联网网络侧计算机或因特网网络侧计算机发送搜索请求,网络侧计算机的搜索引擎根据搜索请求携带的关键词,搜索出包含有所述关键词的文档数据。但从用户的角度来看,并非包含有所述关键词的所有搜索到的文档数据都同等重要。因此,对搜索结果进行排序的数据处理能力就成为网络侧计算机搜索引擎好坏的一个重要的衡量标准。现有技术中,网络侧计算机预先对文档数据库中存储的所有文档数据内容进行数据分析,提取文档数据中出现的关键词,并统计关键词在文档数据中出现的频率、位置以及整个文档数据库中包含该关键词的文档数据的数目等,将这些信息建立索引。网络侧计算机在接收到所述用户终端发送的搜索请求后,在索引中找到包含有搜索请求携带的关键词的文档数据,并根据关键词在文档数据中的出现频率、位置及整个文档集合中包含该关键词的文档数据的数目等参数计算各文档数据与所述关键词字面上的相关程度,最后,按照相关程度大小对文档数据进行排序,并返回给用户。目前,互联网上的数据质量参差不齐,现有技术仅考虑关键词与文档数据字面上的相关程度,并未考虑文档数据所包含的具体内容,从用户的角度来看,排在最前面的字面相关程度高的文档数据信息可能只是包含有用户欲搜索的关键词,但并不具有参考价值。由此可知,现有网络侧计算机采用现有网络侧计算机对搜索结果进行排序的数据处理方法得出的排序结果的有效性较低。
技术实现思路
本专利技术提供一种网络侧计算机对搜索结果进行排序的数据处理方法,以提高排序结果的有效性。本专利技术提供一种网络侧计算机对搜索结果进行排序的数据处理方法,包括:网络侧计算机接收用户终端发送的搜索请求,所述搜索请求携带有用户欲搜索关键词;所述网络侧计算机根据所述关键词,搜索得到文档数据;所述网络侧计算机获取所述关键词与所述文档数据相关的相关参数;所述网络侧计算机提取所述文档数据的完整度权重;所述网络侧计算机根据所述相关参数及完整度权重,计算所述文档数据的排序权重;所述网络侧计算机根据所述排序权重对所述文档数据进行排序,并向所述用户终端返回排序结果。本专利技术的技术效果是:本专利技术实施例所述网络侧计算机不仅考虑了用户欲搜索关键词与文档数据相关程度,还同时考虑了文档数据所包含的具体内容的完整性,即所述网络侧计算机根据关键词与文档数据相关的相关参数及文档的完整度权重,计算文档数据的排序权重,并根据所述排序权重对所述文档数据进行排序。较现有技术,采用本专利技术实施例提供的所述方法得出的排序结果的有效性更高。附图说明图1为本专利技术提供的网络侧计算机对搜索结果进行排序的数据处理方法实施例一的流程示意图;图2为本专利技术提供的网络侧计算机对搜索结果进行排序的数据处理方法实施例二的流程示意图;图3为本专利技术提供的网络侧计算机对搜索结果进行排序的数据处理方法实施例三的流程示意图;图4为本专利技术提供的网络侧计算机对搜索结果进行排序的数据处理方法实施例四的流程示意图;图5为本专利技术提供的各实施例中一具体步骤的第一个具体实现实例的流程示意图;图6为本专利技术提供的各实施例中另一具体步骤的第一个具体实现实例的流程示意图;图7为本专利技术提供的各实施例中一具体步骤的第二个具体实现实例的流程示意图;图8为本专利技术提供的各实施例中另一具体步骤的第二个具体实现实例的流程示意图;图9为本专利技术提供的各实施例中一具体步骤的第三个具体实现实例的流程示意图;图10为本专利技术提供的各实施例中另一具体步骤的第三个具体实现实例的流程示意图。具体实施方式如图1所示,本专利技术提供的网络侧计算机对搜索结果进行排序的数据处理方法实施例一的流程示意图。如图所示,本实施例一所述方法包括:步骤101、网络侧计算机接收用户终端发送的搜索请求,所述搜索请求携带有用户欲搜索关键词。步骤102、所述网络侧计算机根据所述关键词,搜索得到文档数据。步骤103、所述网络侧计算机获取所述关键词与所述文档数据相关的相关参数。步骤104、所述网络侧计算机提取所述文档数据的完整度权重。具体地,所述网络侧计算机中预先存储有各文档数据的完整度权重。所述网络计算机可直接提取已存储的所述文档数据的完整度权重即可。其中,所述完整度权重为衡量各文档数据完整性的一个权重值。完整度衡量标准依据实际应用情况具体设定。在具体应用中,所述网络侧计算机对所述文档数据进行解析,根据所述解析结果将所述文档数据划分为至少一个字段。所述文档数据以字段组合的形式存储在文档数据库中。例如,所述文档数据包含有若干个字段,例如主题字段、地址描述字段、电话字段、电话加锁字段、地理坐标字段、图片字段、文档内容描述字段、点评引用字段和类别字段中的一种或任意组合。默认情况下,所述文档数据包含的字段越多,其完整度就越高。更具体地,在本步骤104之前,所述网络侧计算机可根据所述文档数据包含的所有字段来确定所述文档数据的完整度权重,并将确定出的完整度权重进行存储,具体地实现过程如下:步骤1041、所述网络侧计算机获取文档数据包含的所有字段,所有字段包括:主题字段、地址描述字段、电话字段、电话加锁字段、地理坐标字段、图片字段、文档内容描述字段和点评引用字段中的一种或任意组合。步骤1042、所述网络侧计算机根据获取到的所有字段,确定所述文档数据的完整度权重。具体地,若所述网络侧计算机获取到的所有字段中包含有地址描述字段,则提取所述地址描述字段中的地址描述字符,并查询地址描述字符数据库,当查询出所述地址描述字符数据库中存在有所述地址描述字符时,将当前权重值更新为所述当前权重值与第一预设值之和;和/或若所述网络侧计算机获取到的所有字段中包含有电话字段,则提取所述电话字段中的号码字符串,并根据预设的电话号码编码规则判定所述号码字符串是否符合所述电话号码编码规则,若是,将当前权重值更新为所述当前权重值与第二预设值之和;和/或若所述网络侧计算机获取到的所有字段中包含有电话加锁字段,则提取所述电话加锁字段中的加锁标识,当所述加锁标识为已加锁标识时,将当前权重值更新为所述当前权重值与第三预设值之和;和/或若所述网络侧计算机获取到的所有所述字段中包含有地理坐标字段,则将当前权重值更新为所述当前权重值与第四预设值之和;和/或若所述网络侧计算机获取到的所有字段中包含有图片字段,则将当前权重值更新为所述当前权重值与第五预设值之和;和/或若所述网络侧计算机获取到的所有字段中包含有文档内容描述字段,则将当前权重值更新为所述当前权重值与第六预设值之和;和/或若所述网络侧计算机获取到的所有字段中包含有点评引用字段,则将当前权重值更新为所述当前权重值与第七预设值之和;所述网络侧计算机将当前权重值作为所述文档数据的完整度权重。这里需要说明的是:其中,所述网络侧计算机对所述文档数据的完整度权重的确定可根据实际应用中的需求来设定。具体地,如对于提供商户信息搜索的网络侧计算机来说,所述网络侧计算机还可进一步针对所述文档数据的文档内容描述字段中包含的具体内容来确定所述文档数据的完整度权重,例如,该文档内容描述字段是否包含有:用于标识包含本文档来自技高网
...
网络侧计算机对搜索结果进行排序的数据处理方法

【技术保护点】
一种网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,包括:网络侧计算机接收用户终端发送的搜索请求,所述搜索请求携带有用户欲搜索关键词;所述网络侧计算机根据所述关键词,搜索得到文档数据;所述网络侧计算机获取所述关键词与所述文档数据相关的相关参数;所述网络侧计算机提取所述文档数据的完整度权重;所述网络侧计算机根据所述相关参数及完整度权重,计算所述文档数据的排序权重;所述网络侧计算机根据所述排序权重对所述文档数据进行排序,并向所述用户终端返回排序结果。

【技术特征摘要】
1.一种网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,包括:网络侧计算机接收用户终端发送的搜索请求,所述搜索请求携带有用户欲搜索关键词;所述网络侧计算机根据所述关键词,搜索得到文档数据;所述网络侧计算机获取所述关键词与所述文档数据相关的相关参数;所述网络侧计算机提取所述文档数据的完整度权重;所述网络侧计算机根据所述相关参数及完整度权重,计算所述文档数据的排序权重;所述网络侧计算机根据所述排序权重对所述文档数据进行排序,并向所述用户终端返回排序结果;所述网络侧计算机对搜索结果进行排序的数据处理方法,还包括:若所述网络侧计算机识别出所述关键词包含有类别信息,则获取所述文档数据对应所述类别信息的类别可信度权重;所述网络侧计算机获取所述文档数据的数据可信度权重;所述网络侧计算机根据所述完整度权重、类别可信度权重和数据可信度权重,计算所述文档数据的类别匹配权重;相应地,所述网络侧计算机根据所述相关参数及完整度权重,计算所述文档数据的排序权重之后,还包括:所述网络侧计算机根据所述文档数据的类别匹配权重,修正所述文档数据的排序权重。2.根据权利要求1所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述若所述网络侧计算机识别出所述关键词包含有类别信息,则获取所述文档数据对应所述类别信息的类别可信度权重之前,还包括:所述网络侧计算机获取文档数据;所述网络侧计算机设置所述文档数据对应各类别信息的类别可信度权重。3.根据权利要求1或2所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述网络侧计算机获取所述文档数据的数据可信度权重,包括:所述网络侧计算机统计所述文档数据的点评引用字段中包含的点评信息的数量以及被引用记录数量;所述网络侧计算机根据所述点评信息的数量以及被引用记录数量,得出所述文档数据的总关注数量;所述网络侧计算机根据总关注数量与映射值的对应关系,获取所述总关注数量对应的映射值;所述网络侧计算机根据所述映射值,计算所述文档数据的数据可信度权重。4.根据权利要求1或2所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述网络侧计算机根据所述文档数据的完整度权重、类别可信度权重和数据可信度权重,计算所述文档数据的类别匹配权重,包括:所述网络侧计算机根据所述文档数据的完整度权重、类别可信度权重和数据可信度权重,采用如下第一预设计算公式计算所述文档数据的类别匹配权重:ranktag_weight=ranktag_tf×ranktag_idf×detail_level×doc_reliability×ranktag_ratio其中,ranktag_tf为预设的类别信息重要度值,ranktag_idf为预设的类别信息逆向文件频率,detail_level为文档数据的完整度权重,doc_reliability为数据可信度权重,ranktag_ratio为类别可信度权重。5.根据权利要求1或2所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述网络侧计算机根据所述文档数据的类别匹配权重,修正所述文档数据的排序权重,具体为:所述网络侧计算机根据所述文档数据的类别匹配权重,采用如下第二预设计算公式修正所述文档数据的排序权重,得出修正后的所述文档数据的排序权重:keyword_weight_after=keyword_weight+ranktag_weight其中,keyword_weight为所述文档数据的排序权重,keyword_weight_after为修正后的所述文档数据的排序权重,ranktag_weight为所述文档数据的类别匹配权重。6.根据权利要求1或2所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,还包括:若所述网络侧计算机识别出所述关键词包含有地址信息,则查询空间数据库以获取所述地址信息对应的第一地理坐标;若所述文档数据包含有地理坐标字段,则所述网络侧计算机提取所述地理坐标字段中的第二地理坐标;所述网络侧计算机根据所述第一地理坐标和所述第二地理坐标,计算两地理坐标确定的两地点间的距离;所述网络侧计算机根据所述距离,计算所述包含有地理坐标字段的文档数据的距离权重;相应地,所述网络侧计算机根据所述相关参数及完整度权重,计算所述文档数据的排序权重之后,还包括:所述网络侧计算机根据所述距离权重,修正所述文档数据的排序权重。7.根据权利要求1或2所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,还包括:所述网络侧计算机接收用户终端上报的终端当前所在位置的第三地理坐标;若所述文档数据包含有地理坐标字段,则所述网络侧计算机提取所述地理坐标字段中的第二地理坐标;所述网络侧计算机根据所述第三地理坐标和所述第二地理坐标,计算两地理坐标确定的两地点间的距离;所述网络侧计算机根据所述距离,计算所述包含有地理坐标字段的文档数据的距离权重;相应地,所述网络侧计算机根据所述相关参数及完整度权重,计算所述文档数据的排序权重之后,还包括:所述网络侧计算机根据所述距离权重,修正所述文档数据的排序权重。8.根据权利要求7所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述网络侧计算机根据所述距离权重,修正所述文档数据的排序权重,具体为:所述网络侧计算机根据所述距离权重,采用如下第三预设计算公式修正所述文档数据的排序权重,得出修正后的所述文档数据的排序权重:keyword_weight_after=keyword_weight+range_weight其中,keyword_weight为所述文档数据的排序权重,keyword_weight_after为修正后的所述文档数据的排序权重,range_weight为所述距离权重。9.根据权利要求1或2所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述相关参数包括初始重要度值和逆向文件频率;相应地,所述网络侧计算机获取所述关键词与所述文档数据相关的相关参数,包括:所述网络侧计算机对所述关键词进行分词处理,得到至少一个单元数据;所述网络侧计算机提取各单元数据在所述文档数据中的初始重要度值及各单元数据对应的逆向文件频率。10.根据权利要求9所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述相关参数还包括字间距权重;相应地,所述网络侧计算机获取所述关键词与所述文档数据相关的相关参数,还包括:若所述网络侧计算机对关键词进行分词处理,得到的单元数据为两个或两个以上,则所述网络侧计算机根据所述关键词中的两相邻单元数据在所述文档数据中的距离,得出两相邻单元数据在所述文档数据中的字间距权重。11.根据权利要求10所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述相关参数还包括影响因子;相应地,所述网络侧计算机获取所述关键词与所述文档数据相关的相关参数,还包括:若所述网络侧计算机对关键词进行分词处理,得到的单元数据为两个或两个以上,则所述网络侧计算机依次获取各单元数据和在所述关键词中与其相邻的其他单元数据在所述文档数据中的位置关系;若所述网络侧计算机获取到的所述单元数据和在所述关键词中与其相邻的其他单元数据在所述文档数据中的位置关系包括左相邻位置关系和右相邻位置关系,则采用如下第四预设计算公式计算所述单元数据对应的影响因子:k=0.5×offsetWeight1×offsetWeight2其中,k为所述单元数据对应的影响因子,offsetWeight1为所述单元数据和与其为左相邻的单元数据在所述文档数据中的字间距权重,offsetWeight2为所述单元数据和与其为右相邻的单元数据在所述文档数据中的字间距权重;若所述网络侧计算机获取到的所述单元数据和在所述关键词中与其相邻的其他单元数据在所述文档数据中的位置关系仅包括左相邻位置关系,则采用如下第五预设计算公式计算所述单元数据对应的影响因子:k=offsetWeight1其中,k为所述单元数据对应的影响因子,offsetWeight1为所述单元数据和与其为左相邻的单元数据在所述文档数据中的字间距权重;若所述网络侧计算机获取到的所述单元数据和在所述关键词中与其相邻的其他单元数据在所述文档数据中的位置关系仅包括右相邻位置关系,则采用如下第六预设计算公式计算所述单元数据对应的影响因子:k=offsetWeight2其中,k为所述单元数据对应的影响因子,offsetWeight2为所述单元数据和与其为右相邻的单元数据在所述文档数据中的字间距权重;若所述网络侧计算机获取到的所述单元数据和在所述关键词中与其相邻的其他单元数据在所述文档数据中均不相邻,且识别出所述单元数据为单个字符,则将所述单元数据对应的影响因子设置为第一预设影响因子;若所述网络侧计算机获取到的所述单元数据和在所述关键词中与其相邻的其他单元数据在所述文档数据中均不相邻,且识别出所述单元数据包含有两个或两个以上的字符,则将所述单元数据对应的影响因子设置为第二预设影响因子。12.根据权利要求1或2所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述网络侧计算机提取所述文档数据的完整度权重之前,还包括:所述网络侧计算机获取文档数据包含的所有字段,所有字段包括:主题字段、地址描述字段、电话字段、电话加锁字段、地理坐标字段、图片字段、文档内容描述字段和点评引用字段中的一种或任意组合;所述网络侧计算机根据获取到的所有字段,确定所述文档数据的完整度权重;所述网络侧计算机存储所述文档数据的完整度权重。13.根据权利要求12所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述网络侧计算机获取文档数据包含的所有字段之前,还包括:所述网络侧计算机对文档数据进行解析,根据所述解析结果将所述文档数据划分为至少一个字段。14.根据权利要求12所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述网络侧计算机根据获取到的所有字段,确定所述文档数据的完整度权重,包括:若所述网络侧计算机获取到的所有字段中包含有地址描述字段,则提取所述地址描述字段中的地址描述字符,并查询地址描述字符数据库,当查询出所述地址描述字符数据库中存在有所述地址描述字符时,将当前权重值更新为所述当前权重值与第一预设值之和;和/或若所述网络侧计算机获取到的所有字段中包含有电话字段,则提取所述电话字段中的号码字符串,并根据预设的电话号码编码规则判定所述号码字符串是否符合所述电话号码编码规则,若是,将当前权重值更新为所述当前权重值与第二预设值之和;和/或若所述网络侧计算机获取到的所有字段中包含有电话加锁字段,则提取所述电话加锁字段中的加锁标识,当所述加锁标识为已加锁标识时,将当前权重值更新为所述当前权重值与第三预设值之和;和/或若所述网络侧计算机获取到的所有所述字段中包含有地理坐标字段,则将当前权重值更新为所述当前权重值与第四预设值之和;和/或若所述网络侧计算机获取到的所有字段中包含有图片字段,则将当前权重值更新为所述当前权重值与第五预设值之和;和/或若所述网络侧计算机获取到的所有字段中包含有文档内容描述字段,则将当前权重值更新为所述当前权重值与第六预设值之和;和/或若所述网络侧计算机获取到的所有字段中包含有点评引用字段,则将当前权重值更新为所述当前权重值与第七预设值之和;所述网络侧计算机将当前权重值作为所述文档数据的完整度权重。15.根据权利要求9所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述网络侧计算机根据所述相关参数及完整度权重,计算所述文档数据的排序权重,包括:若所述网络侧计算机在所述文档数据的预指定字段中查找到与所述关键词中的一个单元数据相同的单元数据,则所述网络侧计算机根据所述完整度权值和所述初始重要度值,计算所述关键词中的一个单元数据在所述文档数据中的修正重要度值;若在所述文档数据的预指定字段中查找不到与所述关键词中的一个单元数据相同的单元数据,则所述网络侧计算机根据所述初始重要度值,计算所述关键词中的一个单元数据在所述文档数据中的修正重要度值;所述网络侧计算机根据所述关键词中的所有单元数据在所述文档数据中的修正重要度值和所有单元数据对应的逆向文本频率,计算所述文档数据的排序权重。16.根据权利要求15所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述网络侧计算机根据所述关键词中的所有单元数据在所述文档数据中的修正重要度值和所有单元数据对应的逆向文本频率,计算所述文档数据的排序权重,具体为:所述网络侧计算机根据所述关键词中的所有单元数据在所述文档数据中的修正...

【专利技术属性】
技术研发人员:刘建国
申请(专利权)人:爱帮聚信北京科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1