【技术实现步骤摘要】
基于百科知识库和词向量的中文地名语义消歧方法
本专利技术属于地理信息
,具体涉及一种基于百科知识库和词向量的中文地名语义消歧方法。
技术介绍
地名是人们赋予宇宙中特定地理实体的代号,是区别某一特定地理实体与其他地理实体的一种标志。地名作为最常用的社会公共信息之一,是地理空间信息的重要组成部分,是测绘数字产品不可缺少的信息,也是寻常百姓最易接受的定位方式。特别是,当今世界正进入泛在信息社会和大数据时代(李德仁,2012;Goodchild,2017;林珲,2018)。位置大数据成为大数据的重要组成部分,世界上80%的信息都与位置相关(刘经南,2014)。文本是人类最常用的一种自然语言,也是泛在地理大数据源的典型代表。文本中地名是位置信息的重要组成部分,是实现智能化位置服务、全息位置地图、地理空间数据挖掘等的关键。文本中地名描述具有歧义现象,包括同一地名可能对应多个地理位置和同一地址可能有多个描述名称(Buscaldi,2008;Leidner,2008)。例如,地名“鼓楼区”可能对应南京市鼓楼区、徐州市鼓楼区、北 ...
【技术保护点】
1.一种基于百科知识库和词向量的中文地名语义消歧方法,其特征在于,包括如下步骤:/n步骤一:采用开源中文维基百科语料,利用Jieba工具进行分词,基于Word2vec工具进行训练得到预训练词向量模型;/n步骤二:利用地名标注语料对Bi-LSTM与CRF集成的地名识别模型进行训练得到预训练地名识别模型;/n步骤三:采用步骤二得到的预训练地名识别模型,识别待消歧地名所在文本中的所有地名,形成地名列表Q,并通过步骤一得到的预训练词向量模型进行表示,得到词向量Vec
【技术特征摘要】
1.一种基于百科知识库和词向量的中文地名语义消歧方法,其特征在于,包括如下步骤:
步骤一:采用开源中文维基百科语料,利用Jieba工具进行分词,基于Word2vec工具进行训练得到预训练词向量模型;
步骤二:利用地名标注语料对Bi-LSTM与CRF集成的地名识别模型进行训练得到预训练地名识别模型;
步骤三:采用步骤二得到的预训练地名识别模型,识别待消歧地名所在文本中的所有地名,形成地名列表Q,并通过步骤一得到的预训练词向量模型进行表示,得到词向量VecQ;
步骤四:基于百科知识库,搜索歧义地名,并利用网络爬虫技术通过抓取百科内层的URL地址并解析,获取歧义地名对应的义项名列表和义项内容;
步骤五:采用步骤二得到的预训练地名识别模型,对步骤四中每条义项内容进行地名识别,分别生成对应的地名列表Ki,并通过步骤一得到的预训练词向量模型进行表示,得到词向量
步骤六:使用余弦相似度方法计算VecQ与每个的相似度,得到词向量相似度
步骤七:采用Jieba工具对歧义地名的每个义项名进行分词,得到歧义地名的共现词组列表;然后进行歧义地名的义项频率统计,统计词组列表中的每个词组在地名列表Q中出现的频率Pi;
步骤八:采用评分方式对词向量相似度和义项频率Pi进行综合考虑,得分最高的义项名即为歧义地名最可能指代的地理位置。
2.根据权利要求1所述的基于百科知识库和词向量的中文地名语义消歧方法,其特征在于:所述步骤二中具体包括:
Step1:获取地名训练语料:包括地理百科语料和微软语料;
Step2:将两种语料进行混合,将实验语料分为85...
【专利技术属性】
技术研发人员:张春菊,陈玉冰,张雪英,汪陈,张凯,
申请(专利权)人:合肥工业大学,南京师范大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。