一种网页文本中地名地址的提取方法技术

技术编号:16605510 阅读:203 留言:0更新日期:2017-11-22 15:18
本发明专利技术公开了一种网页文本中地名地址的提取方法,包括以下步骤:由单个地名地址要素或若干个地名地址要素的组合形成地名地址基因,并据此构建地名地址基因库;依据地名地址基因库对网页文本中的网页信息进行中文分词,获取网页信息中出现的事件;建立事件相关度、地名地址的字符长度、地名地址在文中出现的次数的提取因子组成的提取规则树,完成对网页文本中地名地址的完整识别与提取。本发明专利技术通过构建地名地址基因库并改进分词算法提高网页文本中地名地址识别的准确性与连贯性;通过考虑地名地址的事件属性,构建地名地址事件相关度、字符长度等因子组成的提取规则树,提高网页文本中地名地址识别的效率与实用性。

A method of extracting address of address in webpage text

The invention discloses a method for extracting the address in the page text, which comprises the following steps: forming the address from the address elements combination of a single gene or a plurality of address elements, and constructs the address gene pool; address names based on the gene bank Chinese segmentation on Web Information Web page text, get there in the event of Web information; establish event related degree, the address of the character length, the address appears in the text of the number of extracted factors consisting of the extraction rule tree, complete the identification and extraction of text in the web address. The present invention constructs the address gene pool and improved segmentation algorithm to improve the accuracy of recognition \in the text of the address and coherence; by considering the event attribute address, the address extraction rules which build event related degree, character length factor tree, improve the efficiency and practicability of the address in the web page text recognition.

【技术实现步骤摘要】
一种网页文本中地名地址的提取方法
本专利技术涉及地理信息系统领域,具体是一种网页文本中地名地址的提取方法。
技术介绍
计算机与网络的出现改变着人们的生产生活方式。自网络诞生以来,其信息量便以级数级别增长,其内容包罗万象,多种多样,地理空间数据是这些信息中重要的一部分。地理信息学家MichaelGoodchild教授指出,通过社交网络与众包(crowdsourcing)活动所产生的地理空间数据将足以和专业数据相媲美,这些数据中蕴含着丰富的位置信息,且多以地名地址的形式出现,因此,如何从大量的网页信息中及时准确的提取有效的地名地址,以便为人们的生产生活提供服务,成为GIS领域亟待解决的问题。地名是人们对具有特定方位、地域范围的地理实体赋予的专有名称;地址是具有地名的某一特定空间位置上自然或人文地理实体位置的结构化描述。在指代空间范围上,地名的指代范围要大于等于地址的指代范围,同时地名指代地点具有模糊性,地址更具体指代某个地点。如地名“天宁寺”即可以指代天宁寺本身,又可以指代天宁寺周边区域。相比之下,地址“西城区天宁寺西夹道2号”指代的地点比较具体。网页信息由于各新闻媒体要求以及新闻编辑人本文档来自技高网...
一种网页文本中地名地址的提取方法

【技术保护点】
一种网页文本中地名地址的提取方法,其特征在于,包括以下步骤:A、由单个地名地址要素或若干个地名地址要素的组合形成地名地址基因,并据此构建地名地址基因库;B、依据地名地址基因库对网页文本中的网页信息进行中文分词,获取网页信息中出现的事件;C、建立事件相关度、地名地址的字符长度、地名地址在文中出现的次数的提取因子组成的提取规则树,完成对网页文本中地名地址的完整识别与提取。

【技术特征摘要】
1.一种网页文本中地名地址的提取方法,其特征在于,包括以下步骤:A、由单个地名地址要素或若干个地名地址要素的组合形成地名地址基因,并据此构建地名地址基因库;B、依据地名地址基因库对网页文本中的网页信息进行中文分词,获取网页信息中出现的事件;C、建立事件相关度、地名地址的字符长度、地名地址在文中出现的次数的提取因子组成的提取规则树,完成对网页文本中地名地址的完整识别与提取。2.根据权利要求1所述的网页文本中地名地址的提取方法,其特征在于,地名地址基因包括地名地址专有名与地名地址通配名。3.根据权利要求1所述的网页文本中地名地址的提取方法,其特征在于,地名地址基因的类型分为:公路、路桥、河流、湖/潭、建筑物、纪念地、环岛、交通站场、街巷、铁路、名胜古迹、桥梁、冠名楼、地片、楼号、政区、住宅区、自然村、隧道、体育设施、开发区、山峰、山脉、泉、水库、水渠、门牌。4.根据权利要求1所述的网页文本中地名地址的提取方法,其特征在于,步骤B中,中文分词采用基于词典的中文分词方法,将地名地址基因库作为分词的词典。5.根据权利要求2所述的网页文本中地名地址的提取方法,其特征在于,采用增字匹配方法获取网页信息中的地名地址通配名;增字匹配算法优先提取包括号、号楼、号院、栋、幢的地名地址通配名,进而增取此类地名地址基因元素之前字符,将增取得字符与原有地名地址通配名合并为一个地名地址基因。6.根据权利要求1所述的网页文本中地名地址的提取方法,其特征在于,步骤B中,设网页信息的地名地址使用形式为“......d1.....d2......dn”,其中“......”表示网页信息中的汉字描述,di(i=1,2.....n)表示网页信息中出现的地名地址基因。7.根据权利要求1所...

【专利技术属性】
技术研发人员:李成名沈建明印洁洪志远武鹏达杜中波刘丽孙隆祥
申请(专利权)人:中国测绘科学研究院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1