一种基于网页拓扑结构的网页地理位置识别方法技术

技术编号：8626148 阅读：184 留言：0更新日期：2013-04-25 23:17

本发明专利技术公开了一种基于网页拓扑结构的网页地理位置识别方法，该方法包括：A、提取网页拓扑结构的步骤；B、提取网页内容的步骤；以及C、计算地区相关性并排序的步骤。利用本发明专利技术方法，在网页缺乏地址词时，能够通过对网页拓扑结构和对特殊意义的普通词进行处理识别出网页地理位置。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网搜索引擎技术，尤其涉及。
技术介绍
随着互联网和移动通信技术的发展，增加地理位置信息能更提高搜索结果的准确性，并大大提升生活的便利度。因此识别网页的地理位置信息逐渐成为一个热门的方向，并且受到了广泛应用。目前大部分识别中文网页地理位置的技术都是基于地址词典，通过提取网页标题和正文中的地址词，进而确定网页的地理位置信息。但是有很多网页中并不包含地址词，无法通过地址词典提取有效的地址信息，则无法有效识别网页的地理位置信息。
技术实现思路
有鉴于此，本专利技术的主要目的在于提供，在网页缺乏地址词时，能够通过对网页拓扑结构和对特殊意义的普通词进行处理识别出网页地理位置。为达到上述目的，本专利技术的技术方案是这样实现的，该方法包括A、提取网页拓扑结构的步骤；B、提取网页内容的步骤；C、计算地区相关性，并排序的步骤。其中，步骤A所述提取网页拓扑结构，包括提取网页的域名、主页、链接及链入链出链接、面包屑路径的网页结构信息。步骤B所述提取网页内容的步骤，包括提取网页的来源、标题、正文信息，尤其是正文内容中地址词。步骤C所述计算地区相关性的步骤，包括根据普通词和提取网页中的来源、面包屑、网页链接信息计算地区的相关性。其中，该步骤C分为如下几个阶段Cl、根据网页的域名和主页、链接计算地区相似度；C2、根据网页的链入链接和链出链接，判定链入链出网页所属的地理位置信息，进而计算网页的地区相似度；C3、如果网页中面包屑含有地理位置信息，则计算网页的地区相似度；C4、如果网页中标题和中文包含特定意义的普通词，根据网页来源和地区的相似度计算该网页属于该地区的概率；C5...

【技术保护点】
一种基于网页拓扑结构的网页地理位置识别方法，其特征在于，该方法包括：A、提取网页拓扑结构的步骤；B、提取网页内容的步骤；C、计算地区相关性并排序的步骤。

【技术特征摘要】
1.一种基于网页拓扑结构的网页地理位置识别方法，其特征在于，该方法包括 A、提取网页拓扑结构的步骤； B、提取网页内容的步骤； C、计算地区相关性并排序的步骤。2.根据权利要求1所述基于网页拓扑结构的网页地理位置识别方法，其特征在于，其中，步骤A所述提取网页拓扑结构，包括提取网页的域名、主页、链接及链入链出链接、面包屑路径的网页结构信息。3.根据权利要求1所述基于网页拓扑结构的网页地理位置识别方法，其特征在于，步骤B所述提取网页内容的步骤，包括提取网页的来源、标题、正文信息，尤其是正文内容中地址词。4.根据权利要求1所述基于网页拓扑结构的网页地理位置识别方法，其特征在于，步骤C所述计算地区相关性的步...

【专利技术属性】
技术研发人员：王敏，宫天翔，史佳佳，杨之光，杨青，
申请(专利权)人：人民搜索网络股份公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人