The invention discloses a method and a device for searching web pages according to tendentiousness values. The method comprises the following steps: A), obtaining a number of web pages, and downloaded to the web database; B), on a number of Web text named entity recognition; C), on several pages in several named body orientation analysis, obtained several named body orientation several pages), making D value; prior to the index table, prior to the index table including the tendency of several named body value; E), making the inverted index table, inverted index table including the tendency of several named body values; F), enter search terms, the search is subdivided into at least one keyword; G), according to the inverted index the calculation table, including keyword page ranking search results output weights. Through the method and device of the invention will contain the search keyword \mainly according to the tendency of the value tendency for sorting, so that the derogatory or commendatory\ ranking, improve users'satisfaction.
【技术实现步骤摘要】
本专利技术涉及信息检索领域和自然语言处理领域,尤其涉及一种根据倾向性值进行 网页搜索的方法和装置。
技术介绍
现有的主流搜索引擎(如Google、Yahoo、Baidu等)的搜索结果都没有在进行排 序时考虑网页的倾向性值或者搜索项所分解的关键字的倾向性值。在1998年的第七届万维网会议上,Sergey Brin和Lawrence Page发表的题 % "The Anatomy of a Large-Scale Hypertextual Web Search Engine,,的论文公开了 Google搜索引擎的索引结构。Google搜索引擎的前向索引表和后向索引表都没有包含任 何倾向性值的信息。专利号为ZL01109132. 0,专利技术名称为“判断一组查询关键字或词在网页中位置相 关性的方法”的专利技术专利公开了另一种搜索引擎的索引结构。前向索引表和后向索引表也 没有包含任何倾向性值的信息。除此之外,现有的索引结构,也即前向索引表(Forward Index)和倒排索引表 (Inverted Index)都没有包含搜索引擎所下载的网页的倾向性值和搜索项所分解的关 ...
【技术保护点】
1.一种根据倾向性值进行网页搜索的方法,其特征在于,包括以下步骤:A)、获取若干网页,并下载至网页数据库;B)、对所述若干网页的文字进行命名体识别;C)、对所述若干网页中的若干命名体进行倾向性分析,获得所述若干网页的所述若干命名体的倾向性值;D)、制作前向索引表,所述前向索引表包括所述若干命名体的倾向性值;E)、制作倒排索引表,所述倒排索引表包括所述若干命名体的倾向性值;F)、输入搜索项,将所述搜索项分解为至少一个关键字;G)、至少根据所述倒排索引表,计算包括所述关键字的网页的排序权值,输出搜索结果。
【技术特征摘要】
【专利技术属性】
技术研发人员:杜一华,
申请(专利权)人:上海莱希信息科技有限公司,上海语天信息技术有限公司,杜一华,
类型:发明
国别省市:31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。