当前位置: 首页 > 专利查询>浙江大学专利>正文

基于信息抽取技术的搜索引擎制造技术

技术编号:2878200 阅读:209 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种基于信息抽取技术的搜索引擎,利用机器学习的方法,对含有同类信息且布局基本一致的HTML页面样本集进行学习,从而得出对此类HTML页面进行信息抽取的规则;应用这些规则,结合一个特定领域的搜索引擎,对网络上的相关信息进行大量地获取,并从半自由的HTML文本中获取结构化的信息。通过训练和学习,调整规则数目和抽象程度,使其满足精度要求,然后基于学习提炼后的规则集对样本集以外的文本进行信息提取。对用搜索引擎获取的特定内容的页面,利用规则进行信息提取。本发明专利技术有益的效果是:将信息抽取技术与搜索引擎技术有机地结合在一起,是一个非常有效、准确的信息获取工具,它能够较大范围地提高人们的工作效率。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及信息抽取(Information Extraction)和搜索引擎(SearchEngine)技术,主要是一种将面向特定领域的信息抽取技术应用到现有搜索引擎的技术实现。
技术介绍
信息抽取技术是按照一定规则,利用计算机对自由、半自由文本中的有效信息进行提取,并加以组织,展现给用户的技术。特定领域的信息抽取以领域相关知识作为指导,利用人工标记的、规则的样本集进行训练,使信息抽取机制中的规则的抽象层次和覆盖面达到最合理的程度,然后再对样本集外的文本进行信息提取。该技术一直以来是计算机人工智能研究领域的核心问题,也是一个难点。搜索引擎技术是利用关键字组合,在网络上查找相关信息,并按照他们与关键字的匹配程度进行排序,然后返回给用户查看的技术。特定领域的搜索引擎能够做到关键字的精确匹配,并且由于有领域知识的指导,搜索的结果更加合理、贴切。随着Internet的快速发展,网络上的信息呈现爆炸式的增长。纷繁的网络信息使搜索引擎的应用得到了空前的提高。近几年来,全球的Internet服务商提供了各种各样的搜索引擎。这些搜索引擎很好地解决了信息搜索的途径和方法,在人们对信息的获取过程中起到了很重要的作用。但是目前搜索引擎给出的信息还需要人为的挑选,而且因为其返回信息的不精确性,这项挑选工作也是很重的。
技术实现思路
本专利技术所要解决的技术问题是提供一种信息抽取与搜索引擎的结合,利用信息抽取技术对搜索引擎返回的相关信息页面进行信息获取,并用结构化的方式对抽取的信息进行表现,使用户对于自己想要查找的信息更加一目了然,这种信息抽取与搜索引擎的结合,我们称之为一种基于信息抽取技术的搜索引擎。本专利技术解决其技术问题所采用的技术方案。这种基于信息抽取技术的搜索引擎,利用机器学习的方法,对含有同类信息且布局基本一致的HTML页面样本集进行学习,从而得出对此类HTML页面进行信息抽取的规则;应用这些规则,结合一个特定领域的搜索引擎,对网络上的相关信息进行大量地获取,并从半自由的HTML文本中获取结构化的信息。也就是说,利用机器学习和模式识别的方法,将经过人工标注的训练集文本的结构信息、字段信息,体现到机器学习后的规则中去。通过训练和学习,不断调整机器的规则数目和抽象程度,使其满足一定的精度要求,然后基于学习提炼后的规则集对样本集以外的文本进行信息提取。对用搜索引擎获取的特定内容的页面,利用规则进行信息提取。信息提取用有限状态机的方式实现,将经过词法分析、语法分析、语义分析、结构分析等的文本,按照有限状态机中的状态进行推导,使之满足某种最终状态,从而根据不同的状态,获取文本中的不同类型信息。本专利技术解决其技术问题所采用的技术方案还可以进一步完善。含有同类信息且布局基本一致的HTML页面样本集是指在该引擎训练阶段由用户事先指定规则的HTML页面集合,提供给引擎的学习机进行学习,从而获取对该领域页面的信息抽取规则。所述的特定领域搜索引擎是指在系统的试开发实现阶段,搜索引擎仅仅面向某一个特定的领域,从而提高搜索的准确性和精度。搜索引擎获取的信息页面交由训练得出的信息抽取规则处理;信息抽取规则对页面进行有效抽取;对于不能进行相关信息抽取的页面,认为其不合法;对于抽取得到的有效信息,结构化地展现给用户。对样本页面进行学习分下面几个阶段a)结构分析;b)词法分析;c)语法解析;d)语义解释;e)框架构建;f)协商决议。机器学习的样本是人为标注的规则页面;样本集是一个规则的HTML页面集合,它们有统一的格式,含有同种类型的信息;人为标注的任务是对HTML的半自由文本标注出关键字,和相应的结构信息。信息抽取规则以解析图和语义关系等形式给出,信息抽取的结果以量化的关键字段值的形式给出。信息抽取是一个机器学习的过程。本专利技术中涉及的机器学习方法是利用人工标注的规则样本集来进行训练。可以建立领域知识库,作为训练的指导,从而省去了为训练集样本进行人工标注的步骤。利用领域知识库的指导,带来的另一个好处是,系统的整个处理机制与领域知识库耦合松散,当用户需要面向另一个领域进行同样的工作时,只要将领域知识库作一次更换,而不必改动其他的任何处理过程。本专利技术有益的效果是基于信息抽取技术的搜索引擎,实际上是将信息抽取技术与搜索引擎技术有机地结合在一起,同时利用了有效的信息获取和信息处理手段。对于当前信息膨胀,但网上信息又非常凌乱的现状,此搜索引擎是一个非常有效、准确的信息获取工具,它能够较大范围地提高人们的工作效率。附图说明图1是本专利技术的基于统计方法的模式识别系统图;图2是本专利技术的语法依赖关系图;图3是本专利技术的信息处理过程示意图;图4是本专利技术的有限状态机示意图;图5是本专利技术的有限状态机中文示意图;具体实施方式下面结合特定的科研领域(Call Paper页面信息获取)对本专利技术作详细描述。这种基于信息抽取技术的搜索引擎系统第一步机器学习机器学习过程根据不同的信息提取目的和不同的领域,准备相应的学习训练样本,人工对样本进行标注。将准备好的样本交由学习机器进行学习,调整学习机器的规则集,使其满足一定的要求。一、训练样本1、页面获取训练样本同信息源一样,也是一些Web页面,因此我们从Internet上获取训练样本,即在网上找规则的Call Paper页面,加以利用。A)、利用现有的搜索引擎,搜索出现Call Paper字段的页面;只要含有Call Paper字段的页面,都会被搜索引擎返回。B)、去除出现Call Paper但不含相关信息的页面;对于返回的页面,会出现含有Call Paper字段,但没有任何Call Paper信息的情况,首先将这些页面删除。C)、去除布局风格不一致的页面;为了使训练集样本适合机器学习,要将布局不一致的页面删除,以免影响学习过程中机器的规则集确定。2、页面预处理对于含有Call Paper信息的页面,进行进一步处理,使之成为只有同一格式的自由文本。A)、删除机器学习尚不能处理的图片信息;B)、删除页面中的广告信息;C)、去除页面中含有的链接信息;D)、最后,去除页面中含有的HTML标签信息,使页面成为仅含有Call Paper信息的自由文本。3、人工标注对于经过以上处理的自由文本,通过人工的方式,将关键字段信息标注出来。面向科研领域的Call Paper页面,我们需要标注的是会议名称、会议主题、会议时间、会议主办单位、论文截稿日期、论文要求等。人工标注的过程其实也可以看成是一个领域知识库的建立过程。二、机器学习准备了充分的学习样本之后,就开始利用这些样本训练规则集。我们利用模式识别的知识,对样本集进行处理。基于统计方法的模式识别系统主要有四个部分组成数据获取,预处理,特征提取和选择,分类决策。(如图1所示)1、结构分析根据页面的分段线索将文档划分成各个部分之后,利用最大熵分类器来划分句子的边界。2、词法分析查找领域相关的术语表,对句子中每一个将在后继的语法解析和语义解释过程中用到的单词都赋以语法和语义特性。对于Call Paper信息来说,领域相关的术语表信息不会很多。3、语法解析通过文本中的单词到单词之间的弧线关系,建立一个依赖关系图。利用依赖关系图说明句子中各个词之间的语法关系。(如图2所示)4、语义解释应用覆盖算法,从人工标注的训练本文档来自技高网...

【技术保护点】
一种基于信息抽取技术的搜索引擎,其特征是:利用机器学习的方法,对含有同类信息且布局基本一致的HTML页面样本集进行学习,从而得出对此类HTML页面进行信息抽取的规则;应用这些规则,结合一个特定领域的搜索引擎,对网络上的相关信息进行大量地获取,并从半自由的HTML文本中获取结构化的信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:吴朝晖徐杰锋陆伟
申请(专利权)人:浙江大学
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1