一种利用语义分析的垂直搜索引擎系统与方法技术方案

技术编号:6864400 阅读:545 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种利用语义分析的垂直搜索引擎系统与方法。该系统包括文本语义分析、索引系统、检索系统三个模块。文本语义分析模块以句为单位,提取文本中每个句子所表示的语境属性,并对语境属性进行切分标注;语境属性综合了词语的出现次数、词语的概念属性和词语在句子中的语义地位;索引模块为每种类型的语境属性单独建立索引;在检索时,可以对不同语境属性进行独立检索,也可以进行组合检索。本发明专利技术的优点在于,利用语境属性来表示词语所在的语言环境,这样在检索时,可以增加语言环境的限定,使得检索结果的相关度更好。本发明专利技术特别适合于企业搜索、垂直搜索等与领域相关的搜索引擎系统,也适合于通用搜索引擎对大量“暗网”数据的处理。

【技术实现步骤摘要】

本专利技术涉及搜索引擎系统,更具体地说,涉及一种语义分析技术,以及利用该语义分析技术实现的垂直搜索引擎系统与方法。
技术介绍
搜索引擎已经成为人们获取信息的重要手段,它现在已经取代门户网站,成为人们上网的首选入口。目前搜索引擎所采用的技术,基本是以全文检索为主的。其一般原理就是利用倒排文件的技术,将待搜索的文字文本建立索引,然后利用关键词匹配的检索技术,从索引库中,把包含相关关键词的内容返回给用户。关键词检索技术一般利用词频等统计信息计算索引库中的文档和关键词的相关度,然后按照相关度排序的方式给出包含这些关键词的文档。这种技术把关键词当做一个字符串进行统计处理,基本上没有考虑关键词本身的语义和关键词所在的语言环境。随着搜索引擎的普及,人们对搜索引擎的期望也越来越高,把自然语言处理的技术,特别是语义处理技术融合到搜索引擎中,成为搜索引擎的发展趋势。也有很多企业在做各种积极的尝试。美国powerset搜索引擎,在引擎中增加了语法分析,考虑了主谓宾的因素,能区分“A打败B”和“B打败A”是两种不同的请求。Powerset只针对wikipedia进行了搜索,没有提供互联网全网搜索。Powe本文档来自技高网...

【技术保护点】
1.一种利用语义分析技术实现垂直搜索引擎的方法,其特征在于,采用以句为单位的语义分析技术,提取文本中每个句子所表示的语境属性,并对语境属性进行切分标注;在索引时,为每种类型的语境属性单独建立索引;在检索时,可以对不同语境属性进行独立检索,也可以进行组合检索。

【技术特征摘要】

【专利技术属性】
技术研发人员:晋耀红
申请(专利权)人:北京师范大学
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1