本发明专利技术公开了一种基于自然语言处理的空间信息检索方法,包括:步骤1,将索引文档进行分词,并更改分词所得各个词的权重,得到包含权重的索引文档;步骤2,用户输入查询语句,对查询语句进行分词,并更改分词所得各个词的权重,得到包含权重的查询语句;步骤3,将包含权重的查询语句在包含权重的索引文档中进行检索。本发明专利技术方法使用自然语言处理工具,将分词技术和命名实体识别技术应用空间信息检索领域,优化了检索的效果。
【技术实现步骤摘要】
基于自然语言处理的空间信息检索方法
本专利技术涉及检索技术和自然语言处理技术,尤其涉及基于自然语言处理的空间信息检索方法。
技术介绍
自然语言处理是人工智能领域中的一个重要方向,主要研究实现人与计算机之间用自然语言符号进行交流的理论和方法。自然语言处理是一门融计算机科学、数学和语言学于一体的科学。上世纪90年代开始,自然语言理解和处理的领域发生了巨大的变化:要求系统能处理真实的大规模的文本,要求能从自然语言文本中提取出有用信息。由于上面的要求,真实的大规模语料库的研制,以及信息丰富的大规模词典的编制都得到了发展,从而为分词、词性标注等低层次应用带来了极大的便利。检索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。检索引擎包括全文索引、目录索引、元检索引擎、垂直检索引擎、集合式检索引擎、门户检索引擎、免费链接列表等。现代检索引擎的工作可以分为三个阶段:搜集阶段、预处理阶段和查询阶段。对于垂直领域的检索而言,搜集阶段则较为简单,通常只需要对元数据进行简单的格式统一化处理即可。预处理阶段也称为索引构建阶段,这个阶段是检索引擎中最复杂的阶段,大部分排序算法会应用在这个阶段。首先,检索引擎会对待索引数据进行清理,执行包括分词,去除停用词等操作;之后就是最重要的步骤:构建倒排索引,倒排索引表示为一个单词,对应着这个词在文档中出现的频度和位置等,相当于对所有数据构建一个词典,根据词可以快速索引到相关文档;查询阶段是检索引擎的实际使用阶段,所有和用户交互的部分都在这个阶段完成。检索引擎对用户输入做清理处理,同样是使用分词和去除停用词等操作,然后把待检索的词项代入到倒排索引和打分公式,排序后返回。自然语言和检索之间的技术结合点很多,在学术界和工业界都已经被广泛的使用,其中包括:分词,关键词提取和语义检索等。
技术实现思路
本专利技术提供了一种基于自然语言处理的空间信息检索优化方法,其目的在于使用自然语言处理算法提升空间信息检索的效果。一种基于自然语言处理的空间信息检索方法,包括:步骤1,将索引文档进行分词,并更改分词后各个词的权重,得到权重更改后的索引文档;步骤2,用户输入查询语句,对查询语句进行分词,并更改分词后各个词的权重,得到权重更改后的查询语句;步骤3,在权重更改后的索引文档中检索权重更改后的查询语句。其中,索引文档是指预存于检索平台中的文本,查询语句是指用户在进行检索时输入的文本。在进行检索时,通过将用户输入的查询语句与与索引文档进行匹配,匹配的文本作为检索结果输出。通过改变索引文档以及查询语句中各个词的权重,使得表示空间信息的词权重增加,从而提高检索的准确性。在步骤1中,利用全局线性模型对索引文档进行分词,且在步骤2中利用全局线性模型对查询语句进行分词。全局线性模型在观测序列的基础上对目标序列进行建模,解决序列化标注的问题。同时具有判别式模型和产生式模型考虑的优点,考虑了上下文标记间的转移概率,以序列化形式进行全局参数优化和解码。所述全局线性模型的建立方法为:步骤1-1,对语料库进行标注,标注后的语料库中每个单字对应一个标签;步骤1-2,利用预设的特征模板和标注后的语料库进行模型训练,得到所述全局线性模型。在基于规则的机器学习方面,本专利技术使用了大量的针对空间地理信息数据的分词样本,这些样本中包含了分好词的空间信息自然语言句子。这些样本句子包括开源样本库的句子,另一方面是针对空间地理信息经过手动标注的句子。这些样本句子构成了语料库。对语料库进行标注,便于后续的分词处理。步骤1-2中,进行模型训练的步骤如下:步骤1-21,对标注后的语料库套用特征模板,对每个单字生成特征列表;步骤1-22,提取各个特征列表中的特征,利用特征和及其权重构建模型,其中每个权重的初始值均为0;步骤1-23,利用模型对标注后的语料库中所有单字进行预测,对于每个单字预测结果进行如下处理:预测正确,则进行下一个单字的预测;预测错误,则利用在线更新算法更新特征的权重,得到新的模型,利用新的模型再对该单字进行预测,直至预测正确或权重的更新次数超过预设值。特征表示词的词性,特征模板中包含词的词性以及前一个词的词性。其中预测方式有很多,例如采用维特比算法预测,将单字的预测值与实际值之间的误差与阈值进行比较,从而判断单字是否预测正确。在步骤1以及步骤2中,进行分词的方法如下,步骤a,将文本输入至全局线性模型中,所述全局线性模型将特征模板应用于文本中,并根据权重计算得到文本所对应的特征列表;步骤b,采用动态规划算法根据特征列表得到所有可能的标签组合,利用回溯算法找到最优的标签组合;步骤c,按照最优的标签组合将文本进行词语划分;其中,步骤a至c中所述的文本为步骤1中的索引文档或步骤2中的查询语句。由于每个单字对应一个标签,因此最优的标签组合表示了文本中各个词语最有可能的划分位置,从而根据最优的标签组合进行词语划分(分词)。所述动态规划算法为维特比算法。采用维特比算法可以对整个上下文进行最好的考虑,从而得到较佳的分词结果。步骤1以及步骤2中利用关键词提取改变词的权重,使关键词的权重增加。其中,关键词是指包含空间信息的词。利用TextRank算法进行关键词提取。TextRank算法,所采用与Google的PageRank类似的图传递模型,可以很好地实现关键词的提取。在步骤1以及步骤2中,利用命名实体识别方法更改分词后各个词的权重,增加文本中空间信息名词的权重,在步骤1中文本为索引文档,在步骤2中为查询语句。采用命名实体识别方法识别文本中表示空间信息的名词,使得检索结果在空间信息领域中更为集中,从而提高了检索的效率。本专利技术方法使用自然语言处理工具,将分词技术和命名实体识别技术应用空间信息检索领域,优化了检索的效果。附图说明图1为本专利技术一个实施例中利用维特比算法进行分词的方法示意图;图2为本专利技术当前实施例中中文分词的效果示意图;图3为本专利技术方法流程图。具体实施方式下面将结合附图对本专利技术的具体实施例进行描述。应当注意,这里描述的实施例只用于举例说明,并不用于限制本专利技术。如图3所示,本专利技术实施例的步骤如下:步骤1,将索引文档进行分词,并更改分词后各个词的权重,得到权重更改后的索引文档;步骤2,用户输入查询语句,对查询语句进行分词,并更改分词后各个词的权重,得到权重更改后的查询语句;其中,在步骤1中对索引文档进行的分词以及在步骤2中对查询语句的分词均采用全局线性模型进行。全局线性模型的建立方法为:步骤1-1,对语料库进行标注,标注后的语料库中每个单字对应一个标签;步骤1-2,利用预设的特征模板和标注后的语料库进行模型训练,得到全局线性模型。进行模型训练的步骤如下:步骤1-21,对标注后的语料库套用特征模板,对每个单字生成特征列表。以中文单字为例,步骤1-22,提取各个特征列表中的特征,利用特征和及其权重构建模型,其中每个权重的初始值均为0;步骤1-23,利用模型对标注后的语料库中每个单字进行预测:预测正确,则进行下一个单字的预测;预测错误,则利用在线更新算法更新特征的权重,得到新的模型,重复步骤1-23,直至预测正确或权重的更新次数超过预设值。在本专利技术实施例中,采用维本文档来自技高网...

【技术保护点】
一种基于自然语言处理的空间信息检索方法,其特征在于,包括:步骤1,将索引文档进行分词,并更改分词后各个词的权重,得到权重更改后的索引文档;步骤2,用户输入查询语句,对查询语句进行分词,并更改分词后各个词的权重,得到权重更改后的查询语句;步骤3,在权重更改后的索引文档中检索权重更改后的查询语句。
【技术特征摘要】
1.一种基于自然语言处理的空间信息检索方法,其特征在于,包括:步骤1,将索引文档进行分词,并更改分词后各个词的权重,得到权重更改后的索引文档;步骤2,用户输入查询语句,对查询语句进行分词,并更改分词后各个词的权重,得到权重更改后的查询语句;步骤3,在权重更改后的索引文档中检索权重更改后的查询语句;在步骤1中,利用全局线性模型对索引文档进行分词,且在步骤2中利用全局线性模型对查询语句进行分词;全局线性模型的建立方法为:步骤1-1,对语料库进行标注,标注后的语料库中每个单字对应一个标签;步骤1-2,利用预设的特征模板和标注后的语料库进行模型训练,得到所述全局线性模型;进行分词的方法如下:步骤a,将文本输入至全局线性模型中,所述全局线性模型将特征模板应用于文本中,并根据权重计算得到文本所对应的特征列表;步骤b,采用动态规划算法根据特征列表得到所有可能的标签组合,利用回溯算法找到最优的标签组合;步骤c,按照最优的标签组合将文本进行词语划分;其中,步骤a至c中所述的文本为步骤1中的索引文档或步骤2中的查询语句。2.如权利要求1所述基于自然语言处理的空间信息检索方法,其特征在于,步骤1-2中,进行模型...
【专利技术属性】
技术研发人员:吴朝晖,高啸,柳云超,陈华钧,郑国轴,杨建华,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。