基于信息抽取技术的搜索引擎制造技术

技术编号：2878200 阅读：212 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种基于信息抽取技术的搜索引擎，利用机器学习的方法，对含有同类信息且布局基本一致的ＨＴＭＬ页面样本集进行学习，从而得出对此类ＨＴＭＬ页面进行信息抽取的规则；应用这些规则，结合一个特定领域的搜索引擎，对网络上的相关信息进行大量地获取，并从半自由的ＨＴＭＬ文本中获取结构化的信息。通过训练和学习，调整规则数目和抽象程度，使其满足精度要求，然后基于学习提炼后的规则集对样本集以外的文本进行信息提取。对用搜索引擎获取的特定内容的页面，利用规则进行信息提取。本发明专利技术有益的效果是：将信息抽取技术与搜索引擎技术有机地结合在一起，是一个非常有效、准确的信息获取工具，它能够较大范围地提高人们的工作效率。（*该技术在2022年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息抽取(Information Extraction)和搜索引擎(SearchEngine)技术，主要是一种将面向特定领域的信息抽取技术应用到现有搜索引擎的技术实现。
技术介绍
信息抽取技术是按照一定规则，利用计算机对自由、半自由文本中的有效信息进行提取，并加以组织，展现给用户的技术。特定领域的信息抽取以领域相关知识作为指导，利用人工标记的、规则的样本集进行训练，使信息抽取机制中的规则的抽象层次和覆盖面达到最合理的程度，然后再对样本集外的文本进行信息提取。该技术一直以来是计算机人工智能研究领域的核心问题，也是一个难点。搜索引擎技术是利用关键字组合，在网络上查找相关信息，并按照他们与关键字的匹配程度进行排序，然后返回给用户查看的技术。特定领域的搜索引擎能够做到关键字的精确匹配，并且由于有领域知识的指导，搜索的结果更加合理、贴切。随着Internet的快速发展，网络上的信息呈现爆炸式的增长。纷繁的网络信息使搜索引擎的应用得到了空前的提高。近几年来，全球的Internet服务商提供了各种各样的搜索引擎。这些搜索引擎很好地解决了信息搜索的途径和方法，在...

【技术保护点】
一种基于信息抽取技术的搜索引擎，其特征是：利用机器学习的方法，对含有同类信息且布局基本一致的ＨＴＭＬ页面样本集进行学习，从而得出对此类ＨＴＭＬ页面进行信息抽取的规则；应用这些规则，结合一个特定领域的搜索引擎，对网络上的相关信息进行大量地获取，并从半自由的ＨＴＭＬ文本中获取结构化的信息。

【技术特征摘要】

【专利技术属性】
技术研发人员：吴朝晖，徐杰锋，陆伟，
申请(专利权)人：浙江大学，
类型：发明
国别省市：86[中国|杭州]

全部详细技术资料下载我是这个专利的主人