【技术实现步骤摘要】
基于自然语言处理的空间信息检索方法
本专利技术涉及检索技术和自然语言处理技术,尤其涉及基于自然语言处理的空间信息检索方法。
技术介绍
自然语言处理是人工智能领域中的一个重要方向,主要研究实现人与计算机之间用自然语言符号进行交流的理论和方法。自然语言处理是一门融计算机科学、数学和语言学于一体的科学。上世纪90年代开始,自然语言理解和处理的领域发生了巨大的变化:要求系统能处理真实的大规模的文本,要求能从自然语言文本中提取出有用信息。由于上面的要求,真实的大规模语料库的研制,以及信息丰富的大规模词典的编制都得到了发展,从而为分词、词性标注等低层次应用带来了极大的便利。检索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。检索引擎包括全文索引、目录索引、元检索引擎、垂直检索引擎、集合式检索引擎、门户检索引擎、免费链接列表等。现代检索引擎的工作可以分为三个阶段:搜集阶段、预处理阶段和查询阶段。对于垂直领域的检索而言,搜集阶段则较为简单,通常只需要对元数据进行简单的格式统一化处理 ...
【技术保护点】
一种基于自然语言处理的空间信息检索方法,其特征在于,包括:步骤1,将索引文档进行分词,并更改分词后各个词的权重,得到权重更改后的索引文档;步骤2,用户输入查询语句,对查询语句进行分词,并更改分词后各个词的权重,得到权重更改后的查询语句;步骤3,在权重更改后的索引文档中检索权重更改后的查询语句。
【技术特征摘要】
1.一种基于自然语言处理的空间信息检索方法,其特征在于,包括:步骤1,将索引文档进行分词,并更改分词后各个词的权重,得到权重更改后的索引文档;步骤2,用户输入查询语句,对查询语句进行分词,并更改分词后各个词的权重,得到权重更改后的查询语句;步骤3,在权重更改后的索引文档中检索权重更改后的查询语句;在步骤1中,利用全局线性模型对索引文档进行分词,且在步骤2中利用全局线性模型对查询语句进行分词;全局线性模型的建立方法为:步骤1-1,对语料库进行标注,标注后的语料库中每个单字对应一个标签;步骤1-2,利用预设的特征模板和标注后的语料库进行模型训练,得到所述全局线性模型;进行分词的方法如下:步骤a,将文本输入至全局线性模型中,所述全局线性模型将特征模板应用于文本中,并根据权重计算得到文本所对应的特征列表;步骤b,采用动态规划算法根据特征列表得到所有可能的标签组合,利用回溯算法找到最优的标签组合;步骤c,按照最优的标签组合将文本进行词语划分;其中,步骤a至c中所述的文本为步骤1中的索引文档或步骤2中的查询语句。2.如权利要求1所述基于自然语言处理的空间信息检索方法,其特征在于,步骤1-2中,进行模型...
【专利技术属性】
技术研发人员:吴朝晖,高啸,柳云超,陈华钧,郑国轴,杨建华,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。