一种利用语义分析的垂直搜索引擎系统与方法技术方案

技术编号:6864400 阅读:516 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种利用语义分析的垂直搜索引擎系统与方法。该系统包括文本语义分析、索引系统、检索系统三个模块。文本语义分析模块以句为单位,提取文本中每个句子所表示的语境属性,并对语境属性进行切分标注;语境属性综合了词语的出现次数、词语的概念属性和词语在句子中的语义地位;索引模块为每种类型的语境属性单独建立索引;在检索时,可以对不同语境属性进行独立检索,也可以进行组合检索。本发明专利技术的优点在于,利用语境属性来表示词语所在的语言环境,这样在检索时,可以增加语言环境的限定,使得检索结果的相关度更好。本发明专利技术特别适合于企业搜索、垂直搜索等与领域相关的搜索引擎系统,也适合于通用搜索引擎对大量“暗网”数据的处理。

【技术实现步骤摘要】

本专利技术涉及搜索引擎系统,更具体地说,涉及一种语义分析技术,以及利用该语义分析技术实现的垂直搜索引擎系统与方法。
技术介绍
搜索引擎已经成为人们获取信息的重要手段,它现在已经取代门户网站,成为人们上网的首选入口。目前搜索引擎所采用的技术,基本是以全文检索为主的。其一般原理就是利用倒排文件的技术,将待搜索的文字文本建立索引,然后利用关键词匹配的检索技术,从索引库中,把包含相关关键词的内容返回给用户。关键词检索技术一般利用词频等统计信息计算索引库中的文档和关键词的相关度,然后按照相关度排序的方式给出包含这些关键词的文档。这种技术把关键词当做一个字符串进行统计处理,基本上没有考虑关键词本身的语义和关键词所在的语言环境。随着搜索引擎的普及,人们对搜索引擎的期望也越来越高,把自然语言处理的技术,特别是语义处理技术融合到搜索引擎中,成为搜索引擎的发展趋势。也有很多企业在做各种积极的尝试。美国powerset搜索引擎,在引擎中增加了语法分析,考虑了主谓宾的因素,能区分“A打败B”和“B打败A”是两种不同的请求。Powerset只针对wikipedia进行了搜索,没有提供互联网全网搜索。Powerset已被微软公司收购。美国的hakia搜索引擎, 利用施乐公司的自然语言处理技术,能对同义、泛化等现象进行处理。Congnition搜索引擎能搜索wiki、法律、健康等内容,它在搜索时能区分每个词不同的词义,可以根据词义选择搜索结果。Silobreaker在关系搜索上做了一些探索,surfcanon在消除主流搜索引擎(比如google)的搜索结果上做了一些尝试,能对搜索结果的相关性进行调整。Swotti在产品评价上,能对评价进行分级,并分析出积极消极因素。Jodange在观点提取方面做了一些工作,能提取在特定议题上拥有影响力的人物,监测他们的观点如何随时间的推移而转变,以及他们如何推动媒体及公众的情绪变化。另外,W3C也在推动语义网的研究,希望能对互联网的内容加上语义标签,但总体来说,语义网还处在研究阶段。可以看出,目前的研究基本还处在词语层面和语法层面(powerset、hakia、 congnition等),或者针对某一方面的语义(swotti、jodange等),还没有考虑句子,甚至更大范围的语义语境对搜索的影响。如专利号98101921. 8模拟大脑语言感知过程的自然语言句类分析方法中的句类分析方法
技术实现思路
本专利技术的目的是提供,以解决针对现有搜索引擎技术还处在词语层面和语法层面,或者针对某一方面的语义,还没有考虑句子,甚至更大范围的语义语境对搜索的影响的缺陷。本专利技术解决其技术问题所采用的技术方案是采用以句为单位的语义分析技术,5提取文本中每个句子所表示的语境属性,并对语境属性进行切分标注;在索引时,为每种类型的语境属性单独建立索引;在检索时,可以对不同语境属性进行独立检索,也可以进行组合检索。本专利技术所述的系统,包括负责对文本进行分析,提取文本中的语境属性,形成带语境属性的标注文本的文本语义分析模块;负责调用文本语义分析模块,并根据分析结果, 为待索引文本,在索引库中建立索引的索引系统模块;负责接收用户的搜索请求,对请求进行解析,从索引库中检索到相应的结果,对结果进行合并和相关度计算,并返回给用户的检索系统模块;文本语义分析模块包含一个在管理员配置垂直搜索引擎时,根据所属的行业和领域的特点,所定义的文本语境属性的分类标准的本体定义模块、一个根据本体定义模块,对待索引文档进行分析,提取文档中每个句子的语境属性模块,并把语境属性标注到原始文档中,形成带语境属性的标注文本。所述的文本语义分析模块,以句子为单位,对文本中的每个句子进行语境属性提取;提取的依据是以xml形式表示,定义了本体所属的领域或行业、描述、定义者和定义时间,同时定义了多组语境属性kmProp ;提取过程中,综合了三方面的因素特征词出现的次数、特征词的概念属性(动词、抽象概念、具体概念)加权,以及特征词在句子中的语义地位加权;在所述的多组语境属性kmProp中,每个语境属性<SemProp>中有<name>表示属性名称,<tag>表示标注在文本中的标签,还有〈Character〉表示该属性的特征词,特征词可以有多个,之间用逗号隔开。所述文本语义分析模块包括以下步骤步骤21中,把文本以句号为单位断开,对每个句子进行处理;步骤22中,判断当前句子是否已经到文本末尾;如果是,则转步骤四;否则转步骤 23 ;步骤23中,调用句子语境属性提取模块(具体流程参见下文),提取句子的语境属性 SemPropN ;步骤M中,判断当前句子提取的属性 mPr0pN是否是该文本的第一个属性;如果是,则转步骤25 ;否则转步骤沈;步骤25中,在文本的起始处设置属性开始标志<kmPropN> ;转步骤21进行下一句处理;步骤沈中,判断当前提取的属性^mPropN和该文本的上一个属性kmPropN-l是否一样;如果是,则转步骤21进行下一句处理;否则转步骤27 ;步骤27中,在当前句子之前,设置上一个属性的结束标志〈AemPropN-D ;步骤28中,在当前句子之前,设置当前属性的开始标志〈SemPropN〉;转步骤21进行下一句处理;步骤四中,在文本末尾处设置最后一个属性的结束标志〈/SemPropN〉;步骤210中,输出带属性标志的标注文本。所述文本语义分析模块中的语境属性模块包括以下步骤步骤32中,对句子进行分词处理;步骤33中,分析句子的语义结构(使用专利号为98101921. 8,模拟大脑语言感知过程的自然语言句类分析方法中的句类分析方法,分析句子的语义结构);步骤34中,根据本体定义14,提取句子中所有的属性特征词;步骤35中,对每个特征词word,取出它所属的属性kmPropi,该属性的权值为 weight (SemPropi) = 1 ;步骤36中,判断特征词word的词性;如果是动词,则转步骤37 ;如果是抽象概念, 则转步骤38 ;如果是具体概念,则转步骤39 ;步骤37中,特征词word的词性是动词,则weight (SemPropi) +5 ;步骤38中,特征词word的词性是抽象概念(抽象概念的定义是其所指的对象不具有物理属性的概念,可参见文献《HNC(概念层次网络)理论导论》苗传江著,一般的,比如外交、差距等词语都是抽象概念),则weight (SemPropi) +2 ;步骤39中,特征词word的词性是具体概念(具体概念的定义是其所指的对象具有物理属性的概念,可参见文献《HNC(概念层次网络)理论导论》苗传江著,一般的,比如手机、自行车等词语都是具体概念),则weight (SemPropi) +1 ;步骤310中,判断特征词word在句子语义结构(该语义结构是经过步骤33得到的)中的位置,如果它是句子的核心(句子核心的判断可参见专利98101921. 8),则转步骤 312 ;如果它是语义块(语义块的定义可参见专利98101921. 8)的核心,则转步骤311 ;否则转 313 ;步骤311 中,给属性 SemPropi 的权值乘以 2, weight (SemPropi) = weigh本文档来自技高网
...

【技术保护点】
1.一种利用语义分析技术实现垂直搜索引擎的方法,其特征在于,采用以句为单位的语义分析技术,提取文本中每个句子所表示的语境属性,并对语境属性进行切分标注;在索引时,为每种类型的语境属性单独建立索引;在检索时,可以对不同语境属性进行独立检索,也可以进行组合检索。

【技术特征摘要】

【专利技术属性】
技术研发人员:晋耀红
申请(专利权)人:北京师范大学
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1