中文信息检索中基于结构约束的索引词权重计算方法技术

技术编号:4259896 阅读:473 留言:0更新日期:2012-04-11 18:40
本发明专利技术是有关于一种中文信息检索中基于结构约束的特征权重计算方法,包括以下步骤:a.对查询进行结构化处理,得到结构化查询结果;结构化处理包括:分词、对切分出的词进行词性标注、对查询进行浅层句法分析或对查询进行句法分析中一个或几个;b.根据述结构化查询结果确定索引词,然后根据与所述索引词相邻并位于词列表中的结构化查询的结果,确定所述索引词的查询-上下文属性集;c.计算查询-上下文属性集中每个属性的权重值;d.通过第一组合函数将各个属性的权重值组合成所述索引词的属性值;f.使用第二组合函数对所述索引词的属性值组合,得到所述索引词权重。无论索引词是否在词列表中,本发明专利技术的方法都能准确计算出其权重。

【技术实现步骤摘要】

本专利技术涉及一种中文信息检索技术,特别涉及一种。
技术介绍
由于因特网的普及,大量的信息迅速积累并广泛地被使用。因此,时空距离远近不再是人们存取与使用信息的最大障碍,取而代之的问题是缺乏有效率的方式在浩瀚的因特网海量信息中寻找想要的信息。信息检索技术(information retrieval technologies)因为能够提供使用者便捷的方式去存取与使用想要的信息,因此在近几年来格外地受到重视。 搜索引擎(Search Engine)是基于信息检索技术来实现的,搜索引擎的重要功能就是对文本信息提供检索,中文信息检索技术中至关重要的环节是索引构建,而索引的构建离不开索引词(index term)的权重计算。 在进行索引词的权重计算之前,需要对中文查询进行结构化处理。请参阅图1所示,其为现有技术中对查询进行结构化的流程图。其中,D1为要进行的查询,例如该查询是一个句子,步骤M1对该查询进行分词;步骤M2将切分出的词进行词性标注;步骤M3对该查询进行浅层句法分析;步骤M4对该查询进行进一步的句法分析,最后得到结构化查询D2,D2中包含上述结构化处理M1、M2、M3及M4本文档来自技高网...

【技术保护点】
一种中文信息检索中基于结构约束的特征权重计算方法,其特征在于,包括以下步骤: a、对查询进行结构化处理,得到结构化查询结果; 所述结构化处理包括: 分词、对切分出的词进行词性标注、对查询进行浅层句法分析或对查询进行句法分析 中一个或几个; b、根据所述结构化查询结果确定索引词,然后根据与所述索引词相邻并位于词列表中的所述结构化查询的结果,确定所述索引词的查询-上下文属性集; c、计算所述查询-上下文属性集中每个属性的权重值; d、通过第一组合 函数将所述各个属性的权重值组合成所述索引词的属性值; f、使用第二组合函数对所述索引...

【技术特征摘要】

【专利技术属性】
技术研发人员:陆永邦
申请(专利权)人:香港理工大学
类型:发明
国别省市:HK[中国|香港]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1