【技术实现步骤摘要】
本专利技术涉及信息抽取(Information Extraction)和搜索引擎(SearchEngine)技术,主要是一种将面向特定领域的信息抽取技术应用到现有搜索引擎的技术实现。
技术介绍
信息抽取技术是按照一定规则,利用计算机对自由、半自由文本中的有效信息进行提取,并加以组织,展现给用户的技术。特定领域的信息抽取以领域相关知识作为指导,利用人工标记的、规则的样本集进行训练,使信息抽取机制中的规则的抽象层次和覆盖面达到最合理的程度,然后再对样本集外的文本进行信息提取。该技术一直以来是计算机人工智能研究领域的核心问题,也是一个难点。搜索引擎技术是利用关键字组合,在网络上查找相关信息,并按照他们与关键字的匹配程度进行排序,然后返回给用户查看的技术。特定领域的搜索引擎能够做到关键字的精确匹配,并且由于有领域知识的指导,搜索的结果更加合理、贴切。随着Internet的快速发展,网络上的信息呈现爆炸式的增长。纷繁的网络信息使搜索引擎的应用得到了空前的提高。近几年来,全球的Internet服务商提供了各种各样的搜索引擎。这些搜索引擎很好地解决了信息搜索的途径和方法,在 ...
【技术保护点】
一种基于信息抽取技术的搜索引擎,其特征是:利用机器学习的方法,对含有同类信息且布局基本一致的HTML页面样本集进行学习,从而得出对此类HTML页面进行信息抽取的规则;应用这些规则,结合一个特定领域的搜索引擎,对网络上的相关信息进行大量地获取,并从半自由的HTML文本中获取结构化的信息。
【技术特征摘要】
【专利技术属性】
技术研发人员:吴朝晖,徐杰锋,陆伟,
申请(专利权)人:浙江大学,
类型:发明
国别省市:86[中国|杭州]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。