The invention belongs to the field of computer software technology, and discloses a named entity recognition method and a system, a computer program, a semantic modeling, a large-scale toponym database, a co-occurrence matrix for the characters in a place name, and a semantic representation of the characters in a place name by gradient descent; and a named entity recognition. In the mapping step, the extracted place names are represented by hierarchical tree, and the corresponding longitude and latitude are obtained by searching and mapping according to the hierarchy. If the corresponding longitude and latitude have more than one, there is mapping ambiguity, then the base area is located. Disambiguation in the name context. The method hierarchizes the place names and caches them into memory, greatly improving the efficiency of place names retrieval and matching, and disambiguating the matched place names based on the semantic information of context, thereby making the longitude and latitude mapped more accurate and improving the accuracy of geospatial application.
【技术实现步骤摘要】
地理空间应用下的命名实体识别方法及系统、计算机程序
本专利技术属于计算机软件
,尤其涉及一种地理空间应用下的命名实体识别方法及系统、计算机程序。
技术介绍
目前,业内常用的现有技术是这样的:伴随着互联网的迅速发展和空间信息技术的逐步繁荣,地理空间文本数据正呈现出爆炸式的增长,但这些数据来源各异、形式多样,为地理空间文本数据的结构化存储、检索和管理带来了极大的挑战。命名实体识别是利用机器学习方法从非结构化的自由文本中,提取出结构化的人名、地名、组织名和时间等结构要素,从而实现对海量数据的关键信息结构化和快速查询检索。命名实体识别技术由来已久,并呈相对成熟的趋势,也在很多领域得到了广泛的应用。命名实体识别是信息抽取的重要的一个研究方向,其基本任务是从非结构化文本中抽取出人名、地名和组织名,而在地理空间下,对地名进行精确识别,并将地名转化为经纬度进行空间表示尤为重要。随着机器学习的发展,诞生了许多基于机器学习的命名识别方法,如层叠隐马尔科夫模型(cascadedhiddenmarkovmodel,cascadedHMM;在统一的隐马尔可夫模型中识别各类命名实体,并在这些隐马尔可夫模型中建立起一定的联系,形成一个一体化的命名实体识别系统)和条件随机场(conditionalrandomfield,CRF;给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点为假设输出随机变量构成马尔可夫随机场)等。针对地理空间应用场景,往往借助地名规则和地理数据库进行辅助,提高地名识别能力。现有基于机器学习的命名实体识别方法通常是监督学习的,其任务主要是依赖 ...
【技术保护点】
1.一种地理空间应用下的命名实体识别方法,其特征在于,所述地理空间应用下的命名实体识别方法包括以下步骤:步骤一,语义建模,利用大规模的地名库,对地名中的字构建共现矩阵,然后通过梯度下降获得地名中字的语义表征;步骤二,命名实体识别模型的训练,利用条件随机场模型,结合字的语义特征,训练模型;步骤三,映射步,将抽取出的地名进行层级树表示,并按照层次进行搜索映射,获得地名对应的经纬度,如果对应的经纬度有多个,存在映射歧义,则根据地名的上下文进行消歧。
【技术特征摘要】
1.一种地理空间应用下的命名实体识别方法,其特征在于,所述地理空间应用下的命名实体识别方法包括以下步骤:步骤一,语义建模,利用大规模的地名库,对地名中的字构建共现矩阵,然后通过梯度下降获得地名中字的语义表征;步骤二,命名实体识别模型的训练,利用条件随机场模型,结合字的语义特征,训练模型;步骤三,映射步,将抽取出的地名进行层级树表示,并按照层次进行搜索映射,获得地名对应的经纬度,如果对应的经纬度有多个,存在映射歧义,则根据地名的上下文进行消歧。2.如权利要求1所述的地理空间应用下的命名实体识别方法,其特征在于,所述步骤一包括以下步骤:(1)对特征进行表示,利用地名中字与字之间的共现建立全局的共现矩阵,表示为:其中,X代表共现矩阵,i和j表示地名库中两个字的索引,Ldi表示文档d中要素i所在的位置,D是数据集的大小,在遍历完整个数据集后,Xij代表地名库中两个字i和j的全局共现程度;求得地名字j出现在地名字i的上下文的概率为:其中,Pij即为地名字之间的共现概率;(2)将字数学化为浮点向量的形式,并引入向量函数、对称性原理,从而可以将共现概率近似为如下形式:其中代表地名库中的字向量,bi,分别为wi,的两个偏置量,表达式采用地名库中字之间向量的余弦相似度来近似两个字之间的共现概率;(3)表示成损失函数的形式如下:其中V为地名库中所有字的数量,J为代价函数,利用自适应梯度下降的方法对代价函数进行优化,获得地名库中每个字对应的向量。3.如权利要求1所述的地理空间应用下的命名实体识别方法,其特征在于,所述步骤二采用序列标注中常用的条件随机场模型进行命名...
【专利技术属性】
技术研发人员:宋俊平,程国艮,
申请(专利权)人:中译语通科技股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。