The invention discloses a method for extracting cross domain information based on a feature model. The method is divided into three parts: the establishment of multi-level feature model, feature selection and combination, and feedback iteration mechanism. A genetic algorithm is introduced and a feature space generation algorithm based on cross validation of support vector machines is proposed. According to the atomic features in different fields, a feature model satisfying the task of extraction is generated. It avoids the problem of poor adaptability of traditional Web information extraction methods. A large number of numerical experiments show that the proposed method has higher accuracy and stability compared with other similar methods, and the algorithm itself is very scalable.
【技术实现步骤摘要】
一种基于特征模型的跨领域信息抽取方法
本专利技术涉及Web信息抽取领域,特别是一种基于特征模型的跨领域信息抽取方法。
技术介绍
Web信息抽取是从非结构化的网页文本中按某种抽取规则获得符合该规则的内容,然后再将其转化为结构和语义更为清晰的格式(XML、关系数据、面向对象的数据等)存储。Web信息抽取不完全等同于对普通文本的信息抽取,当前的网页多为半结构化的形式,一个重要特性是页面的表现形式多样化,这给Web信息抽取带来了困难。而针对网页的跨领域信息抽取方法的研究就是在为了解决Web信息抽取中的通用性问题。总体来说,目前跨领域信息抽取的挑战主要是以下三个方面:1、海量的半结构化文本随着互联网产业的迅速发展,Web已经成为一个巨大的信息库。根据中国互联网信息中心(CNNIC)发布《第33次中国互联网络发展状况统计报告》显示,截至2013年12月,中国网页数量为1500亿个,相比2012年同期增长了22.2%。单个网站的平均网页数和单个网页的平均字节数均维持增长,显示出中国互联网上的内容更为丰富。同时2014中国互联网网民占人口总数的44%,且数量仍在快速增长,互联网已成为人们生活中传播与共享商业、教育、新闻和科研等信息的主要途径。2、网页动态性网页的动态性是指网页的样式和内容是由程序动态生成的。早期的网页称为静态页面,其样式和内容都是先在后台组织好,传送给浏览器后文本内容和样式不再改变。目前以JavaScript为主流的动态网页技术得到广泛的应用,JavaScript代码不仅可以动态改变网页的布局和样式,也可以通过请求后台数据动态改变页面内容。网页的动态性给跨 ...
【技术保护点】
一种基于特征模型的跨领域信息抽取方法,其特征在于,具体操作步骤如下:a.建立多层次特征模型,对现有信息抽取方法中使用到的特征进行归纳总结,将这些特征分解为领域依赖性较低的原子特征,并依据分解的程度建立多层次特征模型,参考现有的特征参数化方法进行特征的参数化,最后,对参数化后的特征建立特征领域适应性分析的评价体系,即每个特征对于不同的领域都有一个初始的适应度值,这个值作为特征选择的初始化依据;b.特征选择与组合,通过步骤a中得到的特征的参数化计算结果,使用类似TF‑IDF的方法来计算特征的领域适应度值,依据特征的领域适应度值来选择合适的特征,构造特征向量空间;c.反馈迭代,根据步骤b得到的特征向量空间在训练样本集中进行交叉验证,得到抽取推理模型的抽取效果作为反馈的结果,根据反馈的结果采取基于遗传算法的特征选择方法来修正特征向量空间。
【技术特征摘要】
1.一种基于特征模型的跨领域信息抽取方法,其特征在于,具体操作步骤如下:a.建立多层次特征模型,对现有信息抽取方法中使用到的特征进行归纳总结,将这些特征分解为领域依赖性较低的原子特征,并依据分解的程度建立多层次特征模型,参考现有的特征参数化方法进行特征的参数化,最后,对参数化后的特征建立特征领域适应性分析的评价体系,即每个特征对于不同的领域都有一个初始的适应度值,这个值作为特征选择的初始化依据;b.特征选择与组合,通过步骤a中得到的特征的参数化计算结果,使用类似TF-IDF的方法来计算特征的领域适应度值,依据特征的领域适应度值来选择合适的特征,构造特征向量空间;c.反馈迭代,根据步骤b得到的特征向量空间在训练样本集中进行交叉验证,得到抽取推理模型的抽取效果作为反馈的结果,根据反馈的结果采取基于遗传算法的特征选择方法来修正特征向量空间。2.根据权利要求1所述的基于特征模型的跨领域信息抽取方法,其特征在于,所述步骤b中的领域适应度使用两个指标来评价特征:特征匹配度和特征区分度;具体计算方法为:b-1.特征匹配度表示某一个特征匹配抽取目标的次数,其具体计算方式采用下述公式:其中,ni,j表示样本集j中,特征i正确匹配的样本数,Si,j表示在样本集j中,特征i匹配到的总样本数,MDi,j表示特征i在样本j中的匹配程度;b-2.特征区分度表示包含某个特征的样本在样本集中出现的频率,其具体计算方式采用下述公式:其中,S表示样本集中总的样本数,|{j:fi∈sj}|表示在样本s中包含特征i的样本集个数,DDi表示包含特征i的样本数在样本集中出现的频率;b-3.特征i的领域适应度的计算公式为MDi,j*DDi。3.根据权利要求1所述的基于特征模型的跨领域信息抽取方法,其特征在于,所述步骤b中的构造特征向量空间,具体方法为:半随机半干预的构造特征向量空间方法,将初始化特征向量空间的一半个体以随机的方式产生,保证结果全局最优性;另一半个体以人工干预的形式尽量多的选择领域适应度值高的候选特征来优化初始化特征向量空间;人工干预的方法参考Holland提出的模拟赌盘的操作,其基本原理是根据每个特征的领域适应度值的比例来确定该特征的选择概率,特征i被选中的概率的计算...
【专利技术属性】
技术研发人员:朱文浩,姚滕俊,胡冠男,金鑫,周资力,
申请(专利权)人:上海大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。