当前位置: 首页 > 专利查询>上海大学专利>正文

面向跨领域进行信息抽取的多层次特征模型和特征评价方法技术

技术编号:16472518 阅读:67 留言:0更新日期:2017-10-29 00:13
本发明专利技术涉及一种面向跨领域进行信息抽取的多层次特征模型和特征评价方法,利用现有信息抽取相关文献中的特征,构建原始特征库;构建多层次特征理论模型,对具有领域性的特征进行降解,将特征分为复合特征和原子特征,降低特征的领域相关性;基于多层次特征理论模型,提出特征适应性评价方法,使用样本库评价可获得特征的跨领域适应性,获得可快速重复使用特征;利用多层次特征理论模型适应领域变化的能力,对模型中的特征进行可变性管理、进行实际网页分析与处理、进行实际网页中的特征识别匹配以及参数化,实现网页信息抽取特征评价系统。本发明专利技术完成了在信息抽取特征评价系统中对多层次特征进行建模实现了具有强适应性的跨领域信息抽取功能。

Multi level feature model and feature evaluation method for cross domain information extraction

The invention relates to a multi level feature model and feature oriented evaluation of cross domain information extraction method, using the existing information extraction features in related literatures, the construction of original feature library; the construction of multi-level characteristic theoretical model for degradation characteristics of the field, will be divided into composite features and atomic features, reduce field correlation; multi level feature theory model based on the proposed feature adaptability evaluation method, using the sample library evaluation cross domain adaptation features, can be obtained quickly reuse characteristics; the use of multi level feature model to adapt to changes in the field of management, the characteristics, the variability in the model analysis and processing, the actual page the actual character recognition in the web page, and realize the parametric feature extraction of Web information evaluation system . The method completes the modeling of multi level features in the information extraction feature evaluation system, and realizes the cross domain information extraction function with strong adaptability.

【技术实现步骤摘要】
面向跨领域进行信息抽取的多层次特征模型和特征评价方法
本专利技术涉及一种面向跨领域进行信息抽取的多层次特征模型和特征评价方法。
技术介绍
信息抽取方法是从半结构化和非结构化的文档中抽取出用户感兴趣的信息并将其结构化的方法,其在信息量迅速增长的互联网内容检索中得到了广泛的应用和认可。信息抽取的跨领域问题是指信息抽取方法对不同主题内容和不同形式文档的信息抽取任务的适应能力。领域包含了两个方面的内容:一方面是指信息主题,如,针对体育新闻的信息抽取模型难以直接应用在旅游攻略的信息抽取;另一方面是指信息的形式,如,针对商品名称的信息抽取方法难以针对网页表格进行抽取。由于不同应用领域中所涉及的知识主题与文本形式的不同,信息抽取只能在有限范围内解决一些特定的问题,当目标领域发生变化时,需要引入大量的修改工作甚至重新开发新的抽取方法。针对这一问题,目前的研究思路主要集中在开放式信息抽取、借助半结构化信息以及基于本体的信息抽取三个方面,而这三种方式在面对领域变化,特别是文本形式等非语义特征发生变化时,还显得不够灵活,具体如下:(1)基于开放式信息抽取方法和半结构信息辅助信息抽取方法的提取对象是所有的互联网网页或一些内容有限的半结构化信息网站提取精确度难以得到保证,无法适用于大多数信息抽取应用的实际需求。(2)基于本体的信息抽取方法中存在的主要问题是本体模型以实体关系的确认为基础,但忽视了其他信息。另外,基于该方法的推理需要实现对某种本体语义关系的识别,因此在实现方式上受到一定的限制。
技术实现思路
本专利技术的目的在于克服现有技术存在的不足,基于文本特征(知识主题和文本形式),提供了一种面向跨领域进行信息抽取的多层次特征模型和特征评价方法,以针对跨领域信息抽取问题,建立多层次特征模型,提高信息抽取方法的领域适应能力。为达到上述目的,本专利技术的构思是:结合以特征参数化为基础的信息抽取已有研究成果,从大量的相关文献中收集信息并抽取特征,构建原始特征库,尝试以特征分解的方式降低其中特征的领域相关性,使其可以快速重复使用,来建立对网页进行信息抽取的多层次特征模型,并使用不同主题和形式内容的网页样本,从多个角度对特征进行分析评价,对特征进行跨领域适应性分析,设计并实现基于多层次特征模型的信息抽取特征评价系统。通过不断地收集用户对特征的评价反馈来丰富特征库,可持续的提高信息抽取方法的领域适应能力。根据上述专利技术构思,本专利技术采用如下技术方案:一种面向跨领域进行信息抽取的多层次特征模型和特征评价方法,具体操作步骤如下:步骤一,收集现有信息抽取研究文献中提到的文本特征,对其进行归纳、分类,构建原始特征库;步骤二,构建多层次特征理论模型:利用其对具有领域性的特征进行降解,将特征分为原子特征:不包括任何其他特征的独立特征,不具有或仅具有少量的领域特点,和复合特征:由一个或多个原子特征以某种形式或逻辑构成的特征,具有领域特点;来降低特征的领域相关性;步骤三,基于多层次特征理论模型,提出特征适应性评价方法,使用样本库来评价特征库中获得特征的跨领域适应性,以获取特征库中能够快速重复使用的特征;步骤四,基于多层次特征理论模型以及对领域变化具有适应能力的特征库,设计信息抽取特征评价系统,通过该系统对模型中的特征进行层次化的可变性管理、对实际的网页进行分析与处理、进行网页中特征的识别匹配以及参数化操作。优选地,所述的步骤二构建多层次特征理论模型的具体方法为:步骤二十一,对特征库的特征进行逻辑描述,即表示特征库中原子特征和复合特征的实体信息和逻辑关系,并对归纳得到的特征库以特征分解的方式,获得领域无关或领域弱相关的同样包含原子特征和复合特征的特征集合。步骤二十二,以特征集合中的特征为基本对象,面向特征进行建模,设计具有明确性、层次性、可扩展性的多层次特征模型。步骤二十三,基于步骤二十二中的多层次特征模型,将跨领域信息抽取系统从概念上分为实现层、多层次特征模型层、抽取目标层三个层次,以降低信息抽取操作之间的耦合性。优选地,所述步骤三中特征适应性评价具体方法为:步骤三十一,利用TF-IDF思想来评估单个特征对样本和领域的重要程度。使用不同信息抽取应用的样本对特征进行适应性评价,所用到的特征评价方法主要选用单个特征的准确率、召回率、F值以及某个特征对某个领域样本的匹配度和区分度。其中,召回率是指抽取出的信息中正确的占应抽取出信息数的百分比,其计算公式为:准确率是指抽取的信息中正确信息所占的百分比。其计算公式为:F值为召回率和准确率的加权平均值,其计算公式为:匹配度为某一个给定的特征在特定网页样本中(例如商品名称网页样本)出现的次数归一化后的值,其计算公式为:区分度为该特征在整个样本网页集合中的频率,设计其计算公式为:步骤三十二,在步骤二中经多层次特征模型优化后的特征库中,将特征分成概念特征、位置特征和显示特征,基于步骤三十一中的公式,经过多次实验迭代,取得较好匹配度和区分度的值后,来进行特征领域适应性分析。步骤三十三,使用样本对步骤三十二中评价值较高的单个特征进一步对不同领域进行评价分析,观察其在不同抽取问题上的表现,以找出通用的特征,方便以后快速重复使用。步骤三十四,使用样本对步骤三十二中评价值较高的多个相关联单个特征组合成一系列复合特征,以提高信息抽取的准确率。优选地,所述步骤四基于多层次特征理论模型以及对领域变化具有适应能力的特征库,设计信息抽取特征评价系统具体方法为:步骤四十一,实现步骤二中的多层次特征理论模型以及用户交互(即,存储从信息抽取特征建模相关文献中收集到的特征,并对特征进行分析、总结、降解和集成显示),构建特征库、样本库。步骤四十二,为特征模型中的每个特征实现参数化方法并存入模型中,并对特征进行层次化的可变性管理,包括特征增加、删减、更新、查找。步骤四十三,基于特征库,实现信息抽取特征评价系统,构建特征显示模块、特征管理模块、网页浏览和页面处理模块和网页特征识别匹配与参数化模块,以针对某个特定的特征,分析并评价该特征对不同领域问题的适应性;针对某个具体的信息抽取任务,便捷的查找可能适用的特征组合。步骤四十四,利用信息抽取特征评价系统,针对具体测试样本的特征识别匹配、参数化,并结合特征跨领域分析,给予特征推荐。优选地,所述步骤四十二的层次化的可变性管理,可以不断的更新特征模型,包括:添加新的特征或参数化方法,删减不合理的特征,以及优化特征的参数化方法,并提供特征的查询,并结合样本进行测试验证。优选地,所述步骤四十三的信息抽取特征评价系统主要模块包括:特征显示模块:向用户展示特征模型特征库中所包含的特征,直观的显示层次化的特征模型,包含复合特征和原子特征。特征管理模块:提供用户界面,对特征库中的特征进行管理。网页浏览和页面处理模块:作为用户与系统进行交互的一个模块,实现用户对样本页面的简单浏览和标记功能,该模块可以对目标网页进行显示,让用户能够在上面对自己感兴趣的信息直接进行标记,并利用映射机制建立用户标记信息与网页DOM树的对应关系。网页特征提取模块:负责在页面处理模块生成的网页DOM树中识别匹配信息的相关特征,主要还是使用DOM树的遍历和正则表达式匹配相结合的方法来进行,主要包含显示特征、位置特征以及概念特征。网页特征识别匹配及特征参数化模块本文档来自技高网...
面向跨领域进行信息抽取的多层次特征模型和特征评价方法

【技术保护点】
一种面向跨领域进行信息抽取的多层次特征模型和特征评价方法,其特征在于,具体操作步骤如下:步骤一,收集现有信息抽取研究文献中提到的文本特征,对其进行归纳、分类,构建原始特征库;步骤二,构建多层次特征理论模型:利用其对具有领域性的特征进行降解,将特征分为原子特征:不包括任何其他特征的独立特征,不具有或仅具有少量的领域特点,和复合特征:由一个或多个原子特征以某种形式或逻辑构成的特征,具有领域特点;来降低特征的领域相关性;步骤三,基于多层次特征理论模型,提出特征适应性评价方法,使用样本库来评价特征库中获得特征的跨领域适应性,以获取特征库中能够快速重复使用的特征;步骤四,基于多层次特征理论模型以及对领域变化具有适应能力的特征库,设计信息抽取特征评价系统,通过该系统对模型中的特征进行层次化的可变性管理、对实际的网页进行分析与处理、进行网页中特征的识别匹配以及参数化操作。

【技术特征摘要】
1.一种面向跨领域进行信息抽取的多层次特征模型和特征评价方法,其特征在于,具体操作步骤如下:步骤一,收集现有信息抽取研究文献中提到的文本特征,对其进行归纳、分类,构建原始特征库;步骤二,构建多层次特征理论模型:利用其对具有领域性的特征进行降解,将特征分为原子特征:不包括任何其他特征的独立特征,不具有或仅具有少量的领域特点,和复合特征:由一个或多个原子特征以某种形式或逻辑构成的特征,具有领域特点;来降低特征的领域相关性;步骤三,基于多层次特征理论模型,提出特征适应性评价方法,使用样本库来评价特征库中获得特征的跨领域适应性,以获取特征库中能够快速重复使用的特征;步骤四,基于多层次特征理论模型以及对领域变化具有适应能力的特征库,设计信息抽取特征评价系统,通过该系统对模型中的特征进行层次化的可变性管理、对实际的网页进行分析与处理、进行网页中特征的识别匹配以及参数化操作。2.根据权利要求1所述的面向跨领域进行信息抽取的多层次特征模型和特征评价方法,其特征在于,所述的步骤二的具体方法为:步骤二十一,对特征库的特征进行逻辑描述,即表示特征库中原子特征和复合特征的实体信息和逻辑关系,并对归纳得到的特征库以特征分解的方式,获得领域无关或领域弱相关的同样包含原子特征和复合特征的特征集合;步骤二十二,以特征集合中的特征为基本对象,面向特征进行建模,设计具有明确性、层次性、可扩展性的多层次特征模型;步骤二十三,基于步骤二十二的多层次特征模型,将跨领域信息抽取系统从概念上分为实现层、多层次特征模型层、抽取目标层三个层次,以降低信息抽取操作之间的耦合性。3.根据权利要求1所述的面向跨领域进行信息抽取的多层次特征模型和特征评价方法,其特征在于,所述的步骤三的具体方法为:步骤三十一,利用TF-IDF思想来评估单个特征对样本和领域的重要程度,使用不同信息抽取应用的样本对特征进行适应性评价,所用到的特征评价方法主要选用单个特征的准确率、召回率、F值以及某个特征对某个领域样本的匹配度和区分度;其中,召回率是指抽取出的信息中正确的占应抽取出信息数的百分比,其计算公式为:准确率是指抽取的信息中正确信息所占的百分比,其计算公式为:F值为召回率和准确率的加权平均值,其计算公式为:匹配度为某一个给定的特征在特定网页样本中出现的次数归一化后的值,其计算公式为:区分度为该特征在整个样本网页集合中的频率,设计其计算公式为:步骤三十二,在步骤二中经多层次特征模型优化后的特征库中,将特征分成概念特征、位置特征和显示特征,基于步骤三十一中的公式,经过多次实验迭代,取得较好匹配度和区分度的值后,来进行特征领域适应性分析;步骤三十三,使用样本对步骤三十二中评价值较高的单个特征进一步对不同领域进行评价分析,观察其在不同抽取问题上的表现,以找出通用的特征,方便以后快速重复使用;步骤三十四,使用样本对步骤三十二中评价值较高的多个相关联单个特征组合成一系列复合特征,以提高信息抽...

【专利技术属性】
技术研发人员:朱文浩徐永林胡冠男丁伯汉郭心怡居朝友
申请(专利权)人:上海大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1