一种互联网文本中地名信息提取及空间定位方法技术

技术编号：32462720 阅读：26 留言：0更新日期：2022-02-26 08:54

本发明专利技术公开了一种互联网文本中地名信息提取及空间定位方法，包括步骤：建立地名地址语义库并以其为匹配词典，提取出互联网文本数据中的空间位置信息，实现空间位置信息的定位；利用训练后的Bi

全部详细技术资料下载

【技术实现步骤摘要】
一种互联网文本中地名信息提取及空间定位方法

[0001]本专利技术涉及到空间信息提取
，具体涉及一种互联网文本中地名信息提取及空间定位方法。

技术介绍

[0002]互联网环境下的社交媒体、新闻媒体、问政平台、政府信箱等平台每时每刻产生着大量包含空间位置信息的文本数据，此类活动产生的地理空间数据已成为空间信息获取的新渠道。若能准确提取文本中的事件、时间和空间信息等要素，并合理挖掘分析此类数据，进行公众舆情监测、城市问题发现等研究，将为城市规划管理提供更好的辅助决策作用。但由于互联网文本数据具有来源多样化、描述差异化(如方言特色、空间粒度差异化)、存储碎片化、非结构化等特点，无法直接结构化存储文本数据中的关键信息，从而为文本数据的分析挖掘带来很多困难。
[0003]自然语言处理领域的不断发展，为文本数据中空间位置信息提取提供了强有力的技术支撑。文本中空间信息识别属于自然语言处理中的命名实体识别任务范畴，是NLP领域的研究热点，从早期基于词典和规则的方法，到传统机器学习的方法，到近年来基于深度学习的方法，目前方法主要分为基于规则的方法、基于统计的方法。
[0004]基于规则的方法是根据地名要素特征(见表1)，构建相应的词典或词缀，采用匹配算法提取文本中地址信息。标准中文地址是由多个地名要素构成，形式为：省+市+区/县+镇/街道/乡+社区/村+道路/门/楼牌/标志物/兴趣点，但互联网文本中往往不会按照标准地址规则描述空间位置信息，同一位置既可采用地址，也可采用地理实体名称描述，同时还存在地名简称的现象。...

【技术保护点】

【技术特征摘要】
1.一种互联网文本中地名信息提取及空间定位方法，其特征在于包括以下步骤：步骤1、建立地名地址语义库，并以地名地址语义库为匹配词典，利用中文分词技术，提取出互联网文本数据中的空间位置信息，根据提取的结果在地名地址语义库中查找相应的经纬度坐标，实现空间位置信息的定位；步骤2、利用步骤1提取的空间位置信息对互联网文本数据进行汉字级别的地名标注，并作为样本数据输入Bi
‑
LSTM
‑
CRF模型进行深度学习训练，利用训练后的Bi
‑
LSTM
‑
CRF模型提取经中文分词技术处理后剩余文本数据中的空间位置信息，再利用地理编码技术实现空间位置信息的定位；步骤3、建立地名地址前后缀特征词语义库，利用关键词匹配方法，从Bi
‑
LSTM
‑
CRF模型提取处理后的剩余文本数据中提取可能包含空间位置信息的短语或词语，再利用地理编码实现空间位置信息的定位。2.根据权利要求1所述的互联网文本中地名信息提取及空间定位方法，其特征在于：所述地名地址语义库以标准地名地址库为基础，扩充接入互联网地名地址库、地名地址变形库、地名地址前后缀特征词语义库及方言库，其中：所述标准地名地址库由民政局的地名数据和公安的地址数据构建而成；所述互联网地名地址库由互联网中存在的位置显性的结构化地名地址数据，经以标准地名地址数据为准、删除重复名称的地名地址数据构建而成；所述地名地址变形库由归纳总结的通名词典、专名词典、饰名词典构建而成；所述地名地址前后缀特征词语义库由前缀词作为起始语、后缀词作为结束语的中文地名地址数据构建而成；所述方言库由方言特色地名地址数据构成而成。3.根据权利要求2所述的互联网文本中地名信息提取及空间定位方法，其特征在于：所述通名词典为根据标准地名...

【专利技术属性】
技术研发人员：金贤锋，罗跃，何小波，何志明，张海鹏，彭靖博，闰记影，吴旻佳，王亚楠，何俊，黄雁，姜海涛，钟雨旋，陈培恩，郑中，
申请(专利权)人：重庆市地理信息和遥感应用中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人