本地搜索排序方法技术

技术编号:4168402 阅读:251 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种本地搜索排序方法。该方法包括根据商户文档中的商户信息得到商户文档权重;根据用户输入的关键字和所述商户文档权重得到商户权重;根据所述商户权重对所述商户文档进行排序。通过本发明专利技术可以为用户提供质量更好、更能满足用户需求的信息。

Local search sorting method

The invention discloses a local search sorting method. The method includes according to the business document in the business information to obtain merchant document weight; according to user input keywords and the merchant document weight merchant weight; sorted based on the document of the merchant merchant weight. The invention can provide users with information of better quality and more users' requirements.

【技术实现步骤摘要】

本专利技术涉及网络
,尤其是一种。
技术介绍
现有技术中一般对商户信息进行收集和整理,建立成索引数据库,当用 户通过互联网进行搜索时,是在搜索栏输入关键字,系统在商户信息中根据 字面匹配程度,将搜索结果输出给用户。用户搜索要获得最好的体验,就需 要为用户找到最想要的结果,但是用户在搜索时只能输入简单的几个字,并 不能完全表达用户搜索的真正目的,同时互联网上的商户的种类各种各样, 信息错综复杂,商户信息的质量也参差不齐。专利技术人在实现本专利技术的过程中发现现有技术存在如下问题仅通过关键字进行字面匹配的搜索方式很难从 海量的商户信息中找到用户真正需要的有价值的数据。
技术实现思路
本专利技术的目的是尽可能将满足用户搜索意图、最有价值、信息最完善的商户信息提供给用户。为实现上述目的,本专利技术提供了一种,包括步骤11:根据商户文档中的商户信息得到商户文档权重;步骤12:根据用户输入的关键字和所述商户文档权重得到商户权重;步骤13:根据所述商户权重对所述商户文档进行排序。所述商户文档权重包括完整性权重、准确度权重和可信度权重。由上述技术方案可知,本专利技术通过在用户检索时,不单单考虑用户输入的关键字和存储的商户信息的字面匹配程度,还考虑根据商户信息得到的商户文档权重,即在排序时还考虑商户信息本身的质量,因此可以为用户提供 信息最完善、质量最好的商户信息。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明图1为本专利技术实施例的流程图2为本专利技术中得到商户文档权重的流程图3为本专利技术中得到商户权重的流程图。具体实施例方式图1为本专利技术实施例的流程图,包括步骤11:根据各商户文档中的商户信息得到相应的商户文档权重。步骤12:根据用户输入的关键字和所述商户文档权重得到商户权重。步骤13:根据所述商户权重对所述商户文档进行排序。其中,步骤ll中的商户文档权重是针对商户信息的完整度、可信度、准确度等不同方面对商户信息的一个综合评价,获得表征商户文档本身质量的权重。参见图2,为本专利技术中得到商户文档权重的流程图, 即步骤11具体包括步骤21:计算各商户文档的通用文档权重。步骤22:在存在分类的情况下,计算各商户文档的分类文档权重。 步骤23:才艮据通用文档权重和分类文档权重得到各商户文档的商户文档 权重。具体的步骤21中的通用文档权重是包含商户信息的文档本身在某些特征属性 上具有的权重,该权重跟文档直接相关,与文档中包含的词以及文档的分类等因素无关。主要包括完整性权重、准确度权重和可信度权重。下面设总的商户文档数为N, N的范围为0SN《225 ,针对某一个商户文档 £>0C;, lSj、iV,计算完整性权重、准确度权重和可信度权重。(1 )完整性权重用于表征文档所具备的关键字段的完整性,这些关键字段将直接决定用户搜索体验的好坏。这些关键字段主要包括名称、电话、 地址、简介、图片、地图。完整性权重Z)『mu的计算公式如下若商户信息中包括地址、电话、简介、图片和地图,则『吣=1.4; 若商户信息中只包括地址、电话、简介、图片,则£>『^=1.3; 若商户信息中只包括地址、电话、简介,则/)『吣=1.2; 若商户信息中只包括地址、电话,则ZW吣-1.1; 若商户信息中只包括地址或电话,则= 1.0 。(2 )准确度权重用于表征文档所具备的某些关键字段的准确性,这些关 键字段的准确性将直接决定用户搜索体验的好坏,主要包括电话准确度、 地址准确度、坐标准确度、筒介准确度。准确度权重根据上述信息确定,具 体流寿呈如下对于每一个文档,首先需要获取如下参数(a) 该文档Z)o。来源网站的个数Sr。,范围l^Src^2'-l;(b) 各来源网站的知名度, 1S S100;(C)每个来源网站的点评数Rev/wCo/ , 0S Srcy , 0 S Rev/ewCo气4 2 216 -l;(d) 该商户在其他同城商户地址中的引用数^cWr Re /~ ,Re /~ S iV;(e) 该商户的网页数量『e6 Re /~ ,『e6 Re/~ 2 224 -1 ;(f) 该商户是否有官方网站i/s尸o加/,,如果有,//。5尸0加~=1.1,如果没有/fc尸o加/乂 =1.0;(g) 电话准确度」cc,e,; , = max,dJ1,^cc,e,厶2,…^cc,e,人s ),对于合作伙伴提供的数据,设定^^,^ = 100, b;^&。。(h) 地址准确度Ac。必w ,^cc。必w. = max04cc。必w p^c。必,…^c。化w ), 对于合作伙伴提供的数据,设定Ac。收w = 100 , 1《*2Sr。;(i) 简介准确度爿cc血 ,爿^w, = max04o^咖丄,,」cc^c,2,…爿血c,s ), 对于合作伙伴提供的数据,设定J^…-100, ls;^Sr。;(j)坐标准确度X ,,,设定6 S S10对于无法标定坐标的文档,其默认精度为6;(k)文档分类词用于表明文档属于的类别。该类别由含义完全相同的等 价词的集合,假设有n个,则文档分类词为CateTermSj j, 12 j 2 n 。获取上述参数后,准确度权重D『a££j的计算公式如下取值范围0.06 S派 S10 。(3)文档可信度权重与文档的完整性、准确性都有关,但该权重主要与 商户的名称有关,需要外在指标来衡量。包括是否有官方网站以及官方网 站的相关属性,例如网页数量、反向链接数量等;々某体引用,如Web网页的 引用数或搜索引擎的引用数或Web评论数等;地址引用数,如在其他的商户 中是否引用其名称;合作伙伴提供数据的准确度,如合作伙伴提供的数据中 有实地采集的数据,这些数据的可信度非常高。 可信度权重的计算公式如下Sc。2,a附^ x log4 Rev/ewCoww。 A 『w = (^1-^-+ log32厕r Re A + log16歸Re ^ ) x ^尸o似//取值范围<formula>formula see original document page 8</formula>以上流程分别得到了完整性权重i)^t,,、准确度权重D『。吣和可信度权重/)^,,,根据这些权重可得到通用文档权重£^,,,计算公式为 <formula>formula see original document page 8</formula>步骤22中的分类文档权重仅对与在某一分类内的所有文档有效或者有 排序意义,而且某些权重的算法与具体的分类有关。分类文档权重需要与词 关联。主要包括知名度权重DW^,j和服务质量权重DW^,j,或者还包括服务范围或细分类权重、消费成本权重。知名度权重DW^,j用于衡量文档在其所在分类中的知名程度,可考虑的因素如下网络知名度,指是否有官方网站以及官方网站的属性,包括网页 数量、反向连接数量、网站更新频度及其他属性;媒体引用数,包括Web网 页引用数、搜索引擎结果数、网站图片数、最近商户的新闻和频度、用户点 评数量,其中用户点评数量又可以进一步分为点评的长度、点评的字面相关 性、对同一商户的某一分类属性的点评、点评的时间或时效性、点评中褒贬 评价词的分布统计、点评的作者分布本文档来自技高网...

【技术保护点】
一种本地搜索排序方法,其特征在于,包括: 步骤11:根据商户文档中的商户信息得到商户文档权重; 步骤12:根据用户输入的关键字和所述商户文档权重得到商户权重; 步骤13:根据所述商户权重对所述商户文档进行排序。

【技术特征摘要】
1、一种本地搜索排序方法,其特征在于,包括步骤11根据商户文档中的商户信息得到商户文档权重;步骤12根据用户输入的关键字和所述商户文档权重得到商户权重;步骤13根据所述商户权重对所述商户文档进行排序。2、 根据权利要求1所述的方法,其特征在于,所述步骤ll包括根据 所述商户信息得到完整性权重、准确度权重和可信度权重。3、 根据权利要求2所述的方法,其特征在于,所述完整性权重的计算方 法为若商户信息中包括地址、电话、简介、图片和地图,则D^t-l.4; 若商户信息中只包括地址、电话、简介、图片,则£>^1=1.3; 若商户信息中只包括地址、电话、简介,则^t-l,2; 若商户信息中只包括地址、电话,则D^t-i.l; 若商户信息中只包括地址或电话,则=1.0; 其中,D^t为完整性权重。4、 根据权利要求2所述的方法,其特征在于,所述准确度权重的计算方 法为<formula>formula see original document page 2</formula>其中,Z)『^为准确度权重;JOT,e,、JCC。^、血C^、^CC。^分别为预设的电话准确度、地址准确度、 简介准确度、坐标准确度。5、 根据权利要求2所述的方法,其特征在于,所述可信度...

【专利技术属性】
技术研发人员:周利民段剑波余文卫于建强
申请(专利权)人:爱帮聚信北京科技有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1