中文信息检索中基于结构约束的索引词权重计算方法技术

技术编号:4259896 阅读:437 留言:0更新日期:2012-04-11 18:40
本发明专利技术是有关于一种中文信息检索中基于结构约束的特征权重计算方法,包括以下步骤:a.对查询进行结构化处理,得到结构化查询结果;结构化处理包括:分词、对切分出的词进行词性标注、对查询进行浅层句法分析或对查询进行句法分析中一个或几个;b.根据述结构化查询结果确定索引词,然后根据与所述索引词相邻并位于词列表中的结构化查询的结果,确定所述索引词的查询-上下文属性集;c.计算查询-上下文属性集中每个属性的权重值;d.通过第一组合函数将各个属性的权重值组合成所述索引词的属性值;f.使用第二组合函数对所述索引词的属性值组合,得到所述索引词权重。无论索引词是否在词列表中,本发明专利技术的方法都能准确计算出其权重。

【技术实现步骤摘要】

本专利技术涉及一种中文信息检索技术,特别涉及一种。
技术介绍
由于因特网的普及,大量的信息迅速积累并广泛地被使用。因此,时空距离远近不再是人们存取与使用信息的最大障碍,取而代之的问题是缺乏有效率的方式在浩瀚的因特网海量信息中寻找想要的信息。信息检索技术(information retrieval technologies)因为能够提供使用者便捷的方式去存取与使用想要的信息,因此在近几年来格外地受到重视。 搜索引擎(Search Engine)是基于信息检索技术来实现的,搜索引擎的重要功能就是对文本信息提供检索,中文信息检索技术中至关重要的环节是索引构建,而索引的构建离不开索引词(index term)的权重计算。 在进行索引词的权重计算之前,需要对中文查询进行结构化处理。请参阅图1所示,其为现有技术中对查询进行结构化的流程图。其中,D1为要进行的查询,例如该查询是一个句子,步骤M1对该查询进行分词;步骤M2将切分出的词进行词性标注;步骤M3对该查询进行浅层句法分析;步骤M4对该查询进行进一步的句法分析,最后得到结构化查询D2,D2中包含上述结构化处理M1、M2、M3及M4的结果,例如为句子的各句法成分、切分出的各个词、对各个词的词性标注、各个词的语义特征等。 上述处理步骤M1、M2、M3及M4是形成结构化查询的现有方法。对中文查询进行结构化处理,可选择其中一个或几个步骤,但至少需要其中一个步骤。 下面详细描述对查询进行结构化的过程。令q为一个中文查询(即图1中的D1)。在步骤M1中,q被分词算法(例如正向最大匹配法,逆向最大匹配法,正向-逆向最大匹配法)分为m个字符串组,q=p1,p2…pi…pm,其中这些字符串组是连续的。pi是q中的子字符串组。令pi=,其中qi,j是已识别的查询子字符串,其与给定的词列表W(例如词典)中的一些词条匹配,ti,j例如为qi,j的词性标注(或一些语义特征)(由图1中步骤M2处理),Ti是该子字符串组的句法成分(由图1中的步骤M3和步骤M4处理),句法分析所得到的句法成分例如为名词短语或者为介词短语。因此,查询q可被处理成(1)式格式,图1中的D2便可为此(1)式格式 ,...(1) 其中q是由下列子字符串组成q1,1,q1,2...q1,n...qm,1,qm,2,...qm,n。一个字符串组也可被嵌入另一个字符串组形成一个字符串组的嵌套结构。例如,下面就是嵌套字符串组结构(图1中D2可能的格式) ,T1] 其中,子字符串组T2嵌入子字符串组T1,这些子字符串组无需连续。这些非连续组可应用于中文分词中(特别是采用正向最大匹配算法时)。目前的表示法是通过增加一个数字后缀指示一对括号来表示非连续组。例如1,(q1,n,t1,n)T2]2有如下嵌套组(q1,1,t1,1),(q1,2,t1,2)T1和(q1,2,t1,2),(q1,n,t1,n)T2。注意在上述表达中,T1与最近的括号,即“]1”绑定。 查询的结构不需要完全被句法结构(由图1中的步骤M4处理)限制,也不要求查询一定是名词短语、动词短语等。查询可以是由浅层句法分析(即图1中的步骤M3)识别出来的一些句法成分。这些子字符串组也可以是基于语义特征的,例如表1中L1的语义特征是+Loc(位置),语义特征例如可以通过语义知识库“知网”(HowNet)进行语义分析来获得。 表1 一个查询示例q1=香港理工大学之友,对其进行结构化处理,形成结构化查询,结构化查询的结果如表1所示,该结构化处理可以用已有的算法来实现,该查询可利用正向或者逆向最大匹配法以及这两种方法的组合来进行分词。词性标注可以通过隐式马尔科夫模型(hidden Markov model)或者错误驱动转换(error-driven transformation)方法来确定。实词可以通过分类法识别。句法分析可以通过CYK分析法,图表分析法等实现,在表1中,句法成分NP表示名词短语,句法成分PP表示介词短语;句法分析可以推广至分析属性语法,其中一些属性是基于语义的。在表1中,语义特征例如为+Loc(位置)。 这里,有两种类型的索引词,即重叠二元词(overlapping characterbigrams)和非连续二元词(non-contiguous bigrams)。在本查询示例q1中,重叠二元词即“香港”、“港理”、“理工”、“工大”、“大学”、“学之”和“之友”,其中,在词列表W中有的索引词例如为“香港”、“理工”,不在词列表W中的索引词例如为“港理”、“工大”;而非连续二元词例如为“理……大”、“学……友”,即非连续二元索引词是三个字的子字符串中的第一个字和最后一个字。 接下来,就可以将该结构化查询所得到的各字符串组和字符串做为索引词来进行权重计算。索引词的权重计算需要依赖词列表,因此词列表的规模对于权重计算的准确程度有着很大的制约作用。中文中,新词会频繁的出现,词列表也需要频繁的更新,词列表更新后,在先使用的旧列表就过期了,索引词的权重便需要重新计算,索引也需要重新构建,而搜索引擎的这种频繁更新是很难实现的,权重计算的准确程度也就无法得到保证。 在这种情况下,一些不在词列表中的索引词的权重计算便显得尤为重要,现有技术中对这种索引词权重的计算有如下方法如果是基于词的索引,其权重通过单个字的权重得到,例如“港理”这个词,通过单字“港”和“理”来计算其权重,完全没有考虑该词和上下文,即“香港”和“理工”的关系,因此这种权重的计算结果是不准确的。如果不是基于词的索引,通常会通过n-gram这种统计方法来分词并计算其权重,计算使用这种方法分出的索引词的权重时,并不会考虑该索引词是不是词列表中某个词的一部分,也不会考虑该索引词是不是在词汇表中某两个词的边界,或者该索引词本身就是一个词,这样计算出来的权重同样是不准确的。 有鉴于上述现有技术存在的缺陷,本专利技术人提出一种基于结构约束的索引词权重计算方法,其能够改进现有技术的权重计算方法,使索引词可以得到更准确的权重。
技术实现思路
本专利技术的主要目的在于,提供一种中文信息检索中基于结构约束的词权重计算方法,所要解决的技术问题是无论该索引词是否在词列表中,都能准确计算出其权重,从而实现词列表升级而无需完全重新计算索引词的权重。 本专利技术的目的及解决其技术问题是采用以下技术方案来实现的。依据本专利技术提出的一种中文信息检索中基于结构约束的特征权重计算方法,包括以下步骤a、对查询进行结构化处理,得到结构化查询结果;所述结构化处理包括分词、对切分出的词进行词性标注、对查询进行浅层句法分析或对查询进行句法分析中一个或几个;b、根据所述结构化查询结果确定索引词,然后根据与所述索引词相邻并位于词列表中的所述结构化查询的结果,确定所述索引词的查询-上下文属性集;c、计算所述查询-上下文属性集中每个属性的权重值;d、通过第一组合函数将所述各个属性的权重值组合成所述索引词的属性值;f、使用第二组合函数对所述索引词的属性值组合,得到所述索引词权重。 本专利技术的目的及解决其技术问题还可采用以下技术措施进一步实现。 前述的中文信息检索中基于结构约束的特征权重计算方法,所述索引词的查询-上下文属性本文档来自技高网
...

【技术保护点】
一种中文信息检索中基于结构约束的特征权重计算方法,其特征在于,包括以下步骤: a、对查询进行结构化处理,得到结构化查询结果; 所述结构化处理包括: 分词、对切分出的词进行词性标注、对查询进行浅层句法分析或对查询进行句法分析 中一个或几个; b、根据所述结构化查询结果确定索引词,然后根据与所述索引词相邻并位于词列表中的所述结构化查询的结果,确定所述索引词的查询-上下文属性集; c、计算所述查询-上下文属性集中每个属性的权重值; d、通过第一组合 函数将所述各个属性的权重值组合成所述索引词的属性值; f、使用第二组合函数对所述索引词的属性值组合,得到所述索引词权重。

【技术特征摘要】

【专利技术属性】
技术研发人员:陆永邦
申请(专利权)人:香港理工大学
类型:发明
国别省市:HK[中国|香港]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1