根据倾向性值进行网页搜索的方法和装置制造方法及图纸

技术编号:6065601 阅读:222 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种根据倾向性值进行网页搜索的方法和装置。该方法包括以下步骤:A)、获取若干网页,并下载至网页数据库;B)、对若干网页的文字进行命名体识别;C)、对若干网页中的若干命名体进行倾向性分析,获得若干网页的若干命名体的倾向性值;D)、制作前向索引表,前向索引表包括若干命名体的倾向性值;E)、制作倒排索引表,倒排索引表包括若干命名体的倾向性值;F)、输入搜索项,将搜索项分解为至少一个关键字;G)、根据倒排索引表,计算包括关键字的网页的排序权值,输出搜索结果。通过本发明专利技术的方法和装置,将含有搜索关键字的网页主要按照倾向性值排序,从而使倾向性为贬义或褒义的网页排名靠前,提升用户的搜索满意度。

Method and apparatus for web search based on propensity values

The invention discloses a method and a device for searching web pages according to tendentiousness values. The method comprises the following steps: A), obtaining a number of web pages, and downloaded to the web database; B), on a number of Web text named entity recognition; C), on several pages in several named body orientation analysis, obtained several named body orientation several pages), making D value; prior to the index table, prior to the index table including the tendency of several named body value; E), making the inverted index table, inverted index table including the tendency of several named body values; F), enter search terms, the search is subdivided into at least one keyword; G), according to the inverted index the calculation table, including keyword page ranking search results output weights. Through the method and device of the invention will contain the search keyword \mainly according to the tendency of the value tendency for sorting, so that the derogatory or commendatory\ ranking, improve users'satisfaction.

【技术实现步骤摘要】

本专利技术涉及信息检索领域和自然语言处理领域,尤其涉及一种根据倾向性值进行 网页搜索的方法和装置。
技术介绍
现有的主流搜索引擎(如Google、Yahoo、Baidu等)的搜索结果都没有在进行排 序时考虑网页的倾向性值或者搜索项所分解的关键字的倾向性值。在1998年的第七届万维网会议上,Sergey Brin和Lawrence Page发表的题 % "The Anatomy of a Large-Scale Hypertextual Web Search Engine,,的论文公开了 Google搜索引擎的索引结构。Google搜索引擎的前向索引表和后向索引表都没有包含任 何倾向性值的信息。专利号为ZL01109132. 0,专利技术名称为“判断一组查询关键字或词在网页中位置相 关性的方法”的专利技术专利公开了另一种搜索引擎的索引结构。前向索引表和后向索引表也 没有包含任何倾向性值的信息。除此之外,现有的索引结构,也即前向索引表(Forward Index)和倒排索引表 (Inverted Index)都没有包含搜索引擎所下载的网页的倾向性值和搜索项所分解的关键 字的倾向性值。因本文档来自技高网...

【技术保护点】
1.一种根据倾向性值进行网页搜索的方法,其特征在于,包括以下步骤:A)、获取若干网页,并下载至网页数据库;B)、对所述若干网页的文字进行命名体识别;C)、对所述若干网页中的若干命名体进行倾向性分析,获得所述若干网页的所述若干命名体的倾向性值;D)、制作前向索引表,所述前向索引表包括所述若干命名体的倾向性值;E)、制作倒排索引表,所述倒排索引表包括所述若干命名体的倾向性值;F)、输入搜索项,将所述搜索项分解为至少一个关键字;G)、至少根据所述倒排索引表,计算包括所述关键字的网页的排序权值,输出搜索结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:杜一华
申请(专利权)人:上海莱希信息科技有限公司上海语天信息技术有限公司杜一华
类型:发明
国别省市:31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1