一种基于网页拓扑结构的网页地理位置识别方法技术

技术编号:8626148 阅读:184 留言:0更新日期:2013-04-25 23:17
本发明专利技术公开了一种基于网页拓扑结构的网页地理位置识别方法,该方法包括:A、提取网页拓扑结构的步骤;B、提取网页内容的步骤;以及C、计算地区相关性并排序的步骤。利用本发明专利技术方法,在网页缺乏地址词时,能够通过对网页拓扑结构和对特殊意义的普通词进行处理识别出网页地理位置。

【技术实现步骤摘要】

本专利技术涉及互联网搜索引擎技术,尤其涉及。
技术介绍
随着互联网和移动通信技术的发展,增加地理位置信息能更提高搜索结果的准确性,并大大提升生活的便利度。因此识别网页的地理位置信息逐渐成为一个热门的方向,并且受到了广泛应用。目前大部分识别中文网页地理位置的技术都是基于地址词典,通过提取网页标题和正文中的地址词,进而确定网页的地理位置信息。但是有很多网页中并不包含地址词,无法通过地址词典提取有效的地址信息,则无法有效识别网页的地理位置信息。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供,在网页缺乏地址词时,能够通过对网页拓扑结构和对特殊意义的普通词进行处理识别出网页地理位置。为达到上述目的,本专利技术的技术方案是这样实现的,该方法包括A、提取网页拓扑结构的步骤;B、提取网页内容的步骤;C、计算地区相关性,并排序的步骤。其中,步骤A所述提取网页拓扑结构,包括提取网页的域名、主页、链接及链入链出链接、面包屑路径的网页结构信息。步骤B所述提取网页内容的步骤,包括提取网页的来源、标题、正文信息,尤其是正文内容中地址词。步骤C所述计算地区相关性的步骤,包括根据普通词和提取网页中的来源、面包屑、网页链接信息计算地区的相关性。其中,该步骤C分为如下几个阶段Cl、根据网页的域名和主页、链接计算地区相似度;C2、根据网页的链入链接和链出链接,判定链入链出网页所属的地理位置信息,进而计算网页的地区相似度;C3、如果网页中面包屑含有地理位置信息,则计算网页的地区相似度;C4、如果网页中标题和中文包含特定意义的普通词,根据网页来源和地区的相似度计算该网页属于该地区的概率;C5、根据网页的标题和正文中的地址词,计算地区相似度;以及C6、计算阶段Cl 阶段C5的总相似度。本专利技术所提供的基于网页拓扑结构的网页地理位置识别方法,具有以下优点现有识别网页地理位置信息的方法是基于标题和正文出现的地址词,但是该方法不能正确处理标题和正文中缺少地址位置信息的网页,本专利技术通过该基于网页拓扑结构的网页地理位置识别方法,在此基础之上,通过加入提取网页中具有地址指向的普通词的技术,并且考虑网页拓扑结构,最终能够全面并准确地识别出网页的地理位置信息。附图说明图1为本专利技术基于网页拓扑结构的网页地理位置识别过程示意图。具体实施例方式下面结合附图及本专利技术的实施例对本专利技术的方法作进一步详细的说明。本专利技术基于网页拓扑结构识别网页地理位置的方法,主要针对缺乏地址词的中文网页,通过对网页的拓扑结构和网页的本文信息进行处理,来识别网页的地理位置信息。图1为本专利技术基于网页拓扑结构的网页地理位置识别过程示意图。如图1所示,该过程主要包括如下步骤步骤11 :提取网页拓扑结构的步骤。包括提取网页的域名、主页、链接及链入链出链接、面包屑路径等网页多种结构信息。如,网页“鄂尔多斯乌审旗秋冬季森林草原防火工作全面铺开”,其主页是人民网,面包屑路径是“人民网 >> 地方 >> 地方专题 >> 鄂尔多斯”,链接为 “http://ordos. people, com. cn/n/2012/1106/c175649-19513189. html,,。这里,所述面包屑路径是一种显示用户在网站或网络应用中的位置的一层层指引的导航。在互联网中,面包屑为用`户提供一种追踪返回最初访问页面的方式,可以清晰的为客户指引进入网站内部页和首页之间的路线。步骤12 :提取网页内容的步骤。包括提取网页的来源、标题、正文等信息,尤其是正文内容中地址词。同时,根据统计可以提取网页中尤其是新闻网页中,大量含有地址意义的普通词,比如“我省”,“本省”,“市公安局”,“市教委”等,这一类普通词不能加入到地址词典中,因为该类词不能在地址词典中指向明确的地理位置信息,所以无法通过加入地址词典的方式来确定该网页的地理位置信息。但是对于这一具体的网页来说,这些词是具有明确地理指向。因此本专利技术同时提取网页中标题和正文中含有特定意义的普通词,而该类词往往会被基于地址词典的方法所忽略。步骤13 :计算地区相关性,并排序的步骤。根据普通词和提取网页中的来源、面包屑、网页链接等信息计算地区的相关性。包括以下阶段第一、根据网页的域名和主页、链接计算地区相似度。令计算域名为d,主页为h,链接url对地区的相似度为S1(P):如果某域名和主页绝大部分都是关于地区的网页,那么S1(P)的值相应比较高。第二、根据网页的链入链接和链出链接,判定链入链出网页所属的地理位置信息,进而计算网页的地区相似度。如,网页的链入网页inlink和链出网页outline包含地区个数N(p),那么该网页的地区的相似度S2(p)简单计算如下 、N(P)S1(P)=~— In I其中,N表示总共链入链出数目。第三、如果网页中面包屑含有地理位置信息P,则计算网页的地区相似度S3(p),其中S3(P)置信度可以设置比较高。因为大多数的面包屑都是基于人工对网页的分类结果,精确度比较高。如,网页的面包屑是“频道首页 > 新闻 > 河南在人民日报 > 正文”,可以得出该网页属于河南地区的概率更高。第四、如果网页中标题和中文包含特定意义的普通词,并且网页来源和地区P的相似度为S4(P),那么属于该网页的地理位置为P的概率增大。其计算方式如下S4(P)=KS4(P));例如,网页中含有“我省顺利举办科技创新大赛”,并且来源于“羊城晚报”,可以很明确的看出该新闻属于广东地区的概率比其他地区更高。第五、根据网页的标题和正文中的地址词,计算地区相似度。根据地址词典,提取网页中标题和正文的地址词word,计算地区的相似度S5(p),计算公式可如下本文档来自技高网...

【技术保护点】
一种基于网页拓扑结构的网页地理位置识别方法,其特征在于,该方法包括:A、提取网页拓扑结构的步骤;B、提取网页内容的步骤;C、计算地区相关性并排序的步骤。

【技术特征摘要】
1.一种基于网页拓扑结构的网页地理位置识别方法,其特征在于,该方法包括 A、提取网页拓扑结构的步骤; B、提取网页内容的步骤; C、计算地区相关性并排序的步骤。2.根据权利要求1所述基于网页拓扑结构的网页地理位置识别方法,其特征在于,其中,步骤A所述提取网页拓扑结构,包括提取网页的域名、主页、链接及链入链出链接、面包屑路径的网页结构信息。3.根据权利要求1所述基于网页拓扑结构的网页地理位置识别方法,其特征在于,步骤B所述提取网页内容的步骤,包括提取网页的来源、标题、正文信息,尤其是正文内容中地址词。4.根据权利要求1所述基于网页拓扑结构的网页地理位置识别方法,其特征在于,步骤C所述计算地区相关性的步...

【专利技术属性】
技术研发人员:王敏宫天翔史佳佳杨之光杨青
申请(专利权)人:人民搜索网络股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1