地理空间应用下的命名实体识别方法及系统、计算机程序技术方案

技术编号:18658018 阅读:25 留言:0更新日期:2018-08-11 14:26
本发明专利技术属于计算机软件技术领域,公开了一种地理空间应用下的命名实体识别方法及系统、计算机程序,语义建模,利用大规模的地名库,对地名中的字构建共现矩阵,然后通过梯度下降获得地名中字的语义表征;命名实体识别模型的训练,利用条件随机场模型,结合字的语义特征,训练模型;映射步,主要是将抽取出的地名进行层级树表示,并按照层次进行搜索映射,获得地名对应的经纬度,如果对应的经纬度有多个,存在映射歧义,则根据地名的上下文进行消歧。本发明专利技术将地名进行层级化,并缓存到内存中,大大提高了地名检索匹配的效率,同时基于上下文的语义信息,对匹配到的地名进行消歧,从而使映射到的经纬度更加准确,提高了在地理空间应用的准确性。

Naming entity recognition method and system, computer program under geospatial application

The invention belongs to the field of computer software technology, and discloses a named entity recognition method and a system, a computer program, a semantic modeling, a large-scale toponym database, a co-occurrence matrix for the characters in a place name, and a semantic representation of the characters in a place name by gradient descent; and a named entity recognition. In the mapping step, the extracted place names are represented by hierarchical tree, and the corresponding longitude and latitude are obtained by searching and mapping according to the hierarchy. If the corresponding longitude and latitude have more than one, there is mapping ambiguity, then the base area is located. Disambiguation in the name context. The method hierarchizes the place names and caches them into memory, greatly improving the efficiency of place names retrieval and matching, and disambiguating the matched place names based on the semantic information of context, thereby making the longitude and latitude mapped more accurate and improving the accuracy of geospatial application.

【技术实现步骤摘要】
地理空间应用下的命名实体识别方法及系统、计算机程序
本专利技术属于计算机软件
,尤其涉及一种地理空间应用下的命名实体识别方法及系统、计算机程序。
技术介绍
目前,业内常用的现有技术是这样的:伴随着互联网的迅速发展和空间信息技术的逐步繁荣,地理空间文本数据正呈现出爆炸式的增长,但这些数据来源各异、形式多样,为地理空间文本数据的结构化存储、检索和管理带来了极大的挑战。命名实体识别是利用机器学习方法从非结构化的自由文本中,提取出结构化的人名、地名、组织名和时间等结构要素,从而实现对海量数据的关键信息结构化和快速查询检索。命名实体识别技术由来已久,并呈相对成熟的趋势,也在很多领域得到了广泛的应用。命名实体识别是信息抽取的重要的一个研究方向,其基本任务是从非结构化文本中抽取出人名、地名和组织名,而在地理空间下,对地名进行精确识别,并将地名转化为经纬度进行空间表示尤为重要。随着机器学习的发展,诞生了许多基于机器学习的命名识别方法,如层叠隐马尔科夫模型(cascadedhiddenmarkovmodel,cascadedHMM;在统一的隐马尔可夫模型中识别各类命名实体,并在这些隐马尔可夫模型中建立起一定的联系,形成一个一体化的命名实体识别系统)和条件随机场(conditionalrandomfield,CRF;给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点为假设输出随机变量构成马尔可夫随机场)等。针对地理空间应用场景,往往借助地名规则和地理数据库进行辅助,提高地名识别能力。现有基于机器学习的命名实体识别方法通常是监督学习的,其任务主要是依赖自动内容抽取会议(ACE)和人民日报语料进行。综上所述,现有技术存在的问题是:虽然传统的命名实体识别的准确率已经很高,但是在地理空间应用上,由于传统的机器学习方法缺少大规模的地名标注数据且难以充分利用已有的地名库数据,因此导致现有技术还面临着如下缺陷和挑战:(1)传统的命名实体识别在地理空间文本中,地名较为丰富和繁杂,伴随着各种歧义现象,传统的命名实体方法的效果较差,因此许多研究者试图通过引入一些地名规则来指导机器的学习,但是这种规则需要繁重的人工劳动,并且难以覆盖所有的规则,从而导致提高不是很明显。(2)传统的命名实体识别对于地理空间的应用,只是识别出地名是远远不够的,更重要的是要把地名映射到精确的经纬度坐标上,这样才能结合当前的数字地球进行可视化展示和统计。解决上述技术问题的难度和意义:由于以上原因,在使用传统的机器学习方法,如CRF,在地理空间文本数据中进行命名实体识别时,评测的F1值仅为67.7%,难以在实际应用中取得很好的效果。在地理空间领域,存在着大量的结构化的地名库,但是怎样将地名库作为特征融入到传统机器学习中,来提升地名实体识别效果,是一个难度较大且亟待解决的问题。本专利技术从这个角度出发,将大规模的地名转化为语义向量表示,降低了特征维度,从而能更好的融入到传统的机器学习中进行训练。在人工标注的数据中进行实验,结果证明,该方法在地名识别中取得了75.5%的F1值,比传统的方法提升了将近8%,使得在地理空间应用中,提取更加精确,为地理空间应用中数据挖掘和可视化等高层应用奠定了坚实的基础。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种地理空间应用下的命名实体识别方法及系统、计算机程序。本专利技术是这样实现的,一种地理空间应用下的命名实体识别方法,所述地理空间应用下的命名实体识别方法包括以下步骤:步骤一,语义建模,利用大规模的地名库,对地名中的字构建共现矩阵,然后通过梯度下降获得地名中字的语义表征;步骤二,命名实体识别模型的训练,利用条件随机场模型,结合字的语义特征,训练模型;步骤三,映射步,主要是将抽取出的地名进行层级树表示,并按照层次进行搜索映射,获得地名对应的经纬度,如果对应的经纬度有多个,存在映射歧义,则根据地名的上下文进行消歧。进一步,所述步骤一包括以下步骤:(1)对特征进行表示,利用地名中字与字之间的共现建立全局的共现矩阵,表示为:其中,X代表共现矩阵,i和j表示地名库中两个字的索引,Ldi表示文档d中要素i所在的位置,D是数据集的大小,在遍历完整个数据集后,Xij代表地名库中两个字i和j的全局共现程度;求得地名字j出现在地名字i的上下文的概率为:其中,Pij即为地名字之间的共现概率;(2)将字数学化为浮点向量的形式,并引入向量函数、对称性原理,从而可以将共现概率近似为如下形式:其中代表地名库中的字向量,分别为的两个偏置量。该表达式的基本思想是采用地名库中字之间向量的余弦相似度来近似两个字之间的共现概率。(3)表示成损失函数的形式如下:其中V为地名库中所有字的数量,J为代价函数,利用自适应梯度下降的方法对代价函数进行优化,获得地名库中每个字对应的向量。进一步,所述步骤二采用序列标注中常用的条件随机场模型进行命名实体识别的建模,其中所用到的特征有两个,其中一个是上下文信息,即当前词的前后两个词的信息;另一个则是第一步得到的字的向量表示。进一步,所述步骤三具体包括:对地名库的层级树的表示;每接收到一个地名,后台启动映射服务,将识别到的地名在内存中进行层级检索,逐层进行检索,当检索完毕后返回检索到的所有可能的路径,构成一系列长的匹配地名集合。进一步,集合中只找到一个路径,则返回最低层次节点值;存在多种可能则需要根据地名的上下文进行消歧,首先将检索到的地名进行向量表示。本专利技术的另一目的在于提供一种所述地理空间应用下的命名实体识别方法的地理空间应用下的命名实体识别系统,所述地理空间应用下的命名实体识别系统包括:语义建模模块,利用大规模的地名库,对地名中的字构建共现矩阵,通过梯度下降获得地名中字的语义表征;命名实体识别模型训练模块,利用条件随机场模型,结合字的语义特征,训练模型;映射模块,用于将抽取出的地名进行层级树表示,并按照层次进行搜索映射,获得地名对应的经纬度,如果对应的经纬度有多个,即存在映射歧义,则根据地名的上下文进行消歧。本专利技术的另一目的在于提供一种实现所述地理空间应用下的命名实体识别方法的计算机程序。本专利技术的另一目的在于提供一种实现所述地理空间应用下的命名实体识别方法的信息数据处理终端。本专利技术的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的地理空间应用下的命名实体识别方法。综上所述,本专利技术的优点及积极效果为:本专利技术包含地名语义规则表征、命名实体识别的模型训练和地名解析映射三个步骤,无需进行繁重的人工规则制定,而是直接利用丰富的地名库本身的特点,从全库出发,建立全局的共现矩阵,从而利用共现矩阵呈现的全局信息进行地名的向量表示,向量表示不仅有利于计算和模型训练,其内在蕴含的语义信息也为地名识别和消歧带来准确率的提升。本专利技术将地名进行层级化,并缓存到内存中,大大提高了地名检索匹配的效率,同时基于上下文的语义信息,对匹配到的地名进行消歧,从而使映射到的经纬度更加准确,提高了在地理空间应用的准确性。为了验证本专利技术的有效性,我们执行了一个人工标注计划,三个独立的标注者对随机选出的100篇地理空间文本数据进行标注,标注内容包括人名、地名和组织名。在同样的运行环境下运行传统的CRF方法和加本文档来自技高网
...

【技术保护点】
1.一种地理空间应用下的命名实体识别方法,其特征在于,所述地理空间应用下的命名实体识别方法包括以下步骤:步骤一,语义建模,利用大规模的地名库,对地名中的字构建共现矩阵,然后通过梯度下降获得地名中字的语义表征;步骤二,命名实体识别模型的训练,利用条件随机场模型,结合字的语义特征,训练模型;步骤三,映射步,将抽取出的地名进行层级树表示,并按照层次进行搜索映射,获得地名对应的经纬度,如果对应的经纬度有多个,存在映射歧义,则根据地名的上下文进行消歧。

【技术特征摘要】
1.一种地理空间应用下的命名实体识别方法,其特征在于,所述地理空间应用下的命名实体识别方法包括以下步骤:步骤一,语义建模,利用大规模的地名库,对地名中的字构建共现矩阵,然后通过梯度下降获得地名中字的语义表征;步骤二,命名实体识别模型的训练,利用条件随机场模型,结合字的语义特征,训练模型;步骤三,映射步,将抽取出的地名进行层级树表示,并按照层次进行搜索映射,获得地名对应的经纬度,如果对应的经纬度有多个,存在映射歧义,则根据地名的上下文进行消歧。2.如权利要求1所述的地理空间应用下的命名实体识别方法,其特征在于,所述步骤一包括以下步骤:(1)对特征进行表示,利用地名中字与字之间的共现建立全局的共现矩阵,表示为:其中,X代表共现矩阵,i和j表示地名库中两个字的索引,Ldi表示文档d中要素i所在的位置,D是数据集的大小,在遍历完整个数据集后,Xij代表地名库中两个字i和j的全局共现程度;求得地名字j出现在地名字i的上下文的概率为:其中,Pij即为地名字之间的共现概率;(2)将字数学化为浮点向量的形式,并引入向量函数、对称性原理,从而可以将共现概率近似为如下形式:其中代表地名库中的字向量,bi,分别为wi,的两个偏置量,表达式采用地名库中字之间向量的余弦相似度来近似两个字之间的共现概率;(3)表示成损失函数的形式如下:其中V为地名库中所有字的数量,J为代价函数,利用自适应梯度下降的方法对代价函数进行优化,获得地名库中每个字对应的向量。3.如权利要求1所述的地理空间应用下的命名实体识别方法,其特征在于,所述步骤二采用序列标注中常用的条件随机场模型进行命名...

【专利技术属性】
技术研发人员:宋俊平程国艮
申请(专利权)人:中译语通科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1