一种互联网文本中地名信息提取及空间定位方法技术

技术编号:32462720 阅读:26 留言:0更新日期:2022-02-26 08:54
本发明专利技术公开了一种互联网文本中地名信息提取及空间定位方法,包括步骤:建立地名地址语义库并以其为匹配词典,提取出互联网文本数据中的空间位置信息,实现空间位置信息的定位;利用训练后的Bi

【技术实现步骤摘要】
一种互联网文本中地名信息提取及空间定位方法


[0001]本专利技术涉及到空间信息提取
,具体涉及一种互联网文本中地名信息提取及空间定位方法。

技术介绍

[0002]互联网环境下的社交媒体、新闻媒体、问政平台、政府信箱等平台每时每刻产生着大量包含空间位置信息的文本数据,此类活动产生的地理空间数据已成为空间信息获取的新渠道。若能准确提取文本中的事件、时间和空间信息等要素,并合理挖掘分析此类数据,进行公众舆情监测、城市问题发现等研究,将为城市规划管理提供更好的辅助决策作用。但由于互联网文本数据具有来源多样化、描述差异化(如方言特色、空间粒度差异化)、存储碎片化、非结构化等特点,无法直接结构化存储文本数据中的关键信息,从而为文本数据的分析挖掘带来很多困难。
[0003]自然语言处理领域的不断发展,为文本数据中空间位置信息提取提供了强有力的技术支撑。文本中空间信息识别属于自然语言处理中的命名实体识别任务范畴,是NLP领域的研究热点,从早期基于词典和规则的方法,到传统机器学习的方法,到近年来基于深度学习的方法,目前方法主要分为基于规则的方法、基于统计的方法。
[0004]基于规则的方法是根据地名要素特征(见表1),构建相应的词典或词缀,采用匹配算法提取文本中地址信息。标准中文地址是由多个地名要素构成,形式为:省+市+区/县+镇/街道/乡+社区/村+道路/门/楼牌/标志物/兴趣点,但互联网文本中往往不会按照标准地址规则描述空间位置信息,同一位置既可采用地址,也可采用地理实体名称描述,同时还存在地名简称的现象。因此,基于规则的中文地名识别,受限于地名词典库和规则库,很难全覆盖,无法使用上下文特征,移植性较差。
[0005]表1地名要素特征表
[0006][0007][0008]基于统计的方法核心是利用通信系统加统计模型,通过大规模语料库获取地名识别的统计模型(例如隐含马尔科夫模型、条件随机场模型、最大熵模型、支持向量机模型等),它在分词、命名实体识别、词向量、词性标注、句法分析等自然语言处理领域具有较多
应用,是目前的主流技术。基于统计的方法不仅考虑地名短语的词法信息,而且结合其在句子上下文信息,一定程度解决了语义歧义问题,从而解决了未登录词的识别问题,不必依赖词典库。
[0009]因此,有人提出了基于复合特征的、基于条件随机场和篇章地名关系的、基于BLSTM模型的中文地名识别方法。虽然通过机器学习可以训练学习特征向量,但通过此方法,对于某些非常明显的地名,反而可能造成误识别。

技术实现思路

[0010]针对现有技术的不足,本专利技术的目的是提供一种互联网文本中地名信息提取及空间定位方法,能够通过地名地址前后缀特征词匹配规则,提取潜在空间位置信息,再根据地理编码服务实现模糊定位。
[0011]为达到上述目的,本专利技术采用的技术方案如下:
[0012]一种互联网文本中地名信息提取及空间定位方法,其关键在于包括以下步骤:
[0013]步骤1、建立地名地址语义库,并以地名地址语义库为匹配词典,利用中文分词技术,提取出互联网文本数据中的空间位置信息,根据提取的结果在地名地址语义库中查找相应的经纬度坐标,实现空间位置信息的定位;
[0014]步骤2、利用步骤1提取的空间位置信息对互联网文本数据进行汉字级别的地名标注,并作为样本数据输入Bi

LSTM

CRF模型进行深度学习训练,利用训练后的Bi

LSTM

CRF模型提取经中文分词技术处理后剩余文本数据中的空间位置信息,再利用地理编码技术实现空间位置信息的定位;
[0015]步骤3、建立地名地址前后缀特征词语义库,利用关键词匹配方法,从Bi

LSTM

CRF模型提取处理后的剩余文本数据中提取可能包含空间位置信息的短语或词语,再利用地理编码实现空间位置信息的定位。
[0016]进一步的,所述地名地址语义库以标准地名地址库为基础,扩充接入互联网地名地址库、地名地址变形库、地名地址前后缀特征词语义库及方言库,其中:
[0017]所述标准地名地址库由民政局的地名数据和公安的地址数据构建而成;
[0018]所述互联网地名地址库由互联网中存在的位置显性的结构化地名地址数据,经以标准地名地址数据为准、删除重复名称的地名地址数据构建而成;
[0019]所述地名地址变形库由归纳总结的通名词典、专名词典、饰名词典构建而成;
[0020]所述地名地址前后缀特征词语义库由前缀词作为起始语、后缀词作为结束语的中文地名地址数据构建而成;
[0021]所述方言库由方言特色地名地址数据构成而成。
[0022]进一步的,所述通名词典为根据标准地名地址库的分类标准中的小类类别,制定的变形名称;所述专名词典为地名的简称和别称;所述饰名词典为包括有中英文字母、数字的大小写变化的名称。
[0023]进一步的,步骤1中利用中文分词技术提取互联网文本数据中的空间位置信息的步骤为:
[0024]采用开源中文分词工具,将句子切分为词语,再利用地名标注功能,实现不同尺度的空间位置信息识别。
[0025]进一步的,所述Bi

LSTM

CRF模型包括输入层、双向LSTM层与CRF层,具体的:
[0026]所述输入层为单个汉字,利用预训练的嵌入矩阵将句子中的每个字W
i
由one

hot向量映射为低维稠密的字向量,从汉字中获取信息强化词向量中的信息;
[0027]所述双向LSTM层包括正向的标准LSTM模型与反向的标准LSTM模型,用于对输入的字序列数据的特征进行有效提取计算,所述标准LSTM模型由循环神经网络、记忆单元和门限机制构成;
[0028]所述CRF层用于通过引入转移特征,考虑输出标签之间的顺序性,进行句子级的序列标注,得到由每个位置的预测构成的整个序列的预测。
[0029]进一步的,步骤3中利用关键词匹配方法提取可能包含空间位置信息的短语或词语并利用地理编码实现空间位置信息定位的具体步骤为:
[0030]基于地名地址前后缀特征词语义库,通过中文分词获得输入文本的有效最小语素,提取有效地名;
[0031]利用图计算关联地名实体的空间相关性,构建潜在的空间语义树;
[0032]计算各空间语义树的全局相关性并排序,并取最大值作为定位结果;
[0033]综合考虑地名分词、空间关系重建及门牌地址计算结果,形成地理编码定位精度评估,返回地理编码结果。
[0034]本专利技术以标准地名地址库为基础,扩充接入互联网地名数据、方言库、地名变形规则库等,建立匹配词典和匹配规则,采用基于规则法精准识别空间信息并精准定位;以精准识别的空间信息结果为训练数据,采用基于汉字的BiLSTM

CRF模型,自动提取空间信息;对于传统方法均未能提取空间本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种互联网文本中地名信息提取及空间定位方法,其特征在于包括以下步骤:步骤1、建立地名地址语义库,并以地名地址语义库为匹配词典,利用中文分词技术,提取出互联网文本数据中的空间位置信息,根据提取的结果在地名地址语义库中查找相应的经纬度坐标,实现空间位置信息的定位;步骤2、利用步骤1提取的空间位置信息对互联网文本数据进行汉字级别的地名标注,并作为样本数据输入Bi

LSTM

CRF模型进行深度学习训练,利用训练后的Bi

LSTM

CRF模型提取经中文分词技术处理后剩余文本数据中的空间位置信息,再利用地理编码技术实现空间位置信息的定位;步骤3、建立地名地址前后缀特征词语义库,利用关键词匹配方法,从Bi

LSTM

CRF模型提取处理后的剩余文本数据中提取可能包含空间位置信息的短语或词语,再利用地理编码实现空间位置信息的定位。2.根据权利要求1所述的互联网文本中地名信息提取及空间定位方法,其特征在于:所述地名地址语义库以标准地名地址库为基础,扩充接入互联网地名地址库、地名地址变形库、地名地址前后缀特征词语义库及方言库,其中:所述标准地名地址库由民政局的地名数据和公安的地址数据构建而成;所述互联网地名地址库由互联网中存在的位置显性的结构化地名地址数据,经以标准地名地址数据为准、删除重复名称的地名地址数据构建而成;所述地名地址变形库由归纳总结的通名词典、专名词典、饰名词典构建而成;所述地名地址前后缀特征词语义库由前缀词作为起始语、后缀词作为结束语的中文地名地址数据构建而成;所述方言库由方言特色地名地址数据构成而成。3.根据权利要求2所述的互联网文本中地名信息提取及空间定位方法,其特征在于:所述通名词典为根据标准地名...

【专利技术属性】
技术研发人员:金贤锋罗跃何小波何志明张海鹏彭靖博闰记影吴旻佳王亚楠何俊黄雁姜海涛钟雨旋陈培恩郑中
申请(专利权)人:重庆市地理信息和遥感应用中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1