The invention relates to a multi level feature model and feature oriented evaluation of cross domain information extraction method, using the existing information extraction features in related literatures, the construction of original feature library; the construction of multi-level characteristic theoretical model for degradation characteristics of the field, will be divided into composite features and atomic features, reduce field correlation; multi level feature theory model based on the proposed feature adaptability evaluation method, using the sample library evaluation cross domain adaptation features, can be obtained quickly reuse characteristics; the use of multi level feature model to adapt to changes in the field of management, the characteristics, the variability in the model analysis and processing, the actual page the actual character recognition in the web page, and realize the parametric feature extraction of Web information evaluation system . The method completes the modeling of multi level features in the information extraction feature evaluation system, and realizes the cross domain information extraction function with strong adaptability.
【技术实现步骤摘要】
面向跨领域进行信息抽取的多层次特征模型和特征评价方法
本专利技术涉及一种面向跨领域进行信息抽取的多层次特征模型和特征评价方法。
技术介绍
信息抽取方法是从半结构化和非结构化的文档中抽取出用户感兴趣的信息并将其结构化的方法,其在信息量迅速增长的互联网内容检索中得到了广泛的应用和认可。信息抽取的跨领域问题是指信息抽取方法对不同主题内容和不同形式文档的信息抽取任务的适应能力。领域包含了两个方面的内容:一方面是指信息主题,如,针对体育新闻的信息抽取模型难以直接应用在旅游攻略的信息抽取;另一方面是指信息的形式,如,针对商品名称的信息抽取方法难以针对网页表格进行抽取。由于不同应用领域中所涉及的知识主题与文本形式的不同,信息抽取只能在有限范围内解决一些特定的问题,当目标领域发生变化时,需要引入大量的修改工作甚至重新开发新的抽取方法。针对这一问题,目前的研究思路主要集中在开放式信息抽取、借助半结构化信息以及基于本体的信息抽取三个方面,而这三种方式在面对领域变化,特别是文本形式等非语义特征发生变化时,还显得不够灵活,具体如下:(1)基于开放式信息抽取方法和半结构信息辅助信息抽取方法的提取对象是所有的互联网网页或一些内容有限的半结构化信息网站提取精确度难以得到保证,无法适用于大多数信息抽取应用的实际需求。(2)基于本体的信息抽取方法中存在的主要问题是本体模型以实体关系的确认为基础,但忽视了其他信息。另外,基于该方法的推理需要实现对某种本体语义关系的识别,因此在实现方式上受到一定的限制。
技术实现思路
本专利技术的目的在于克服现有技术存在的不足,基于文本特征(知识主题和文本形式), ...
【技术保护点】
一种面向跨领域进行信息抽取的多层次特征模型和特征评价方法,其特征在于,具体操作步骤如下:步骤一,收集现有信息抽取研究文献中提到的文本特征,对其进行归纳、分类,构建原始特征库;步骤二,构建多层次特征理论模型:利用其对具有领域性的特征进行降解,将特征分为原子特征:不包括任何其他特征的独立特征,不具有或仅具有少量的领域特点,和复合特征:由一个或多个原子特征以某种形式或逻辑构成的特征,具有领域特点;来降低特征的领域相关性;步骤三,基于多层次特征理论模型,提出特征适应性评价方法,使用样本库来评价特征库中获得特征的跨领域适应性,以获取特征库中能够快速重复使用的特征;步骤四,基于多层次特征理论模型以及对领域变化具有适应能力的特征库,设计信息抽取特征评价系统,通过该系统对模型中的特征进行层次化的可变性管理、对实际的网页进行分析与处理、进行网页中特征的识别匹配以及参数化操作。
【技术特征摘要】
1.一种面向跨领域进行信息抽取的多层次特征模型和特征评价方法,其特征在于,具体操作步骤如下:步骤一,收集现有信息抽取研究文献中提到的文本特征,对其进行归纳、分类,构建原始特征库;步骤二,构建多层次特征理论模型:利用其对具有领域性的特征进行降解,将特征分为原子特征:不包括任何其他特征的独立特征,不具有或仅具有少量的领域特点,和复合特征:由一个或多个原子特征以某种形式或逻辑构成的特征,具有领域特点;来降低特征的领域相关性;步骤三,基于多层次特征理论模型,提出特征适应性评价方法,使用样本库来评价特征库中获得特征的跨领域适应性,以获取特征库中能够快速重复使用的特征;步骤四,基于多层次特征理论模型以及对领域变化具有适应能力的特征库,设计信息抽取特征评价系统,通过该系统对模型中的特征进行层次化的可变性管理、对实际的网页进行分析与处理、进行网页中特征的识别匹配以及参数化操作。2.根据权利要求1所述的面向跨领域进行信息抽取的多层次特征模型和特征评价方法,其特征在于,所述的步骤二的具体方法为:步骤二十一,对特征库的特征进行逻辑描述,即表示特征库中原子特征和复合特征的实体信息和逻辑关系,并对归纳得到的特征库以特征分解的方式,获得领域无关或领域弱相关的同样包含原子特征和复合特征的特征集合;步骤二十二,以特征集合中的特征为基本对象,面向特征进行建模,设计具有明确性、层次性、可扩展性的多层次特征模型;步骤二十三,基于步骤二十二的多层次特征模型,将跨领域信息抽取系统从概念上分为实现层、多层次特征模型层、抽取目标层三个层次,以降低信息抽取操作之间的耦合性。3.根据权利要求1所述的面向跨领域进行信息抽取的多层次特征模型和特征评价方法,其特征在于,所述的步骤三的具体方法为:步骤三十一,利用TF-IDF思想来评估单个特征对样本和领域的重要程度,使用不同信息抽取应用的样本对特征进行适应性评价,所用到的特征评价方法主要选用单个特征的准确率、召回率、F值以及某个特征对某个领域样本的匹配度和区分度;其中,召回率是指抽取出的信息中正确的占应抽取出信息数的百分比,其计算公式为:准确率是指抽取的信息中正确信息所占的百分比,其计算公式为:F值为召回率和准确率的加权平均值,其计算公式为:匹配度为某一个给定的特征在特定网页样本中出现的次数归一化后的值,其计算公式为:区分度为该特征在整个样本网页集合中的频率,设计其计算公式为:步骤三十二,在步骤二中经多层次特征模型优化后的特征库中,将特征分成概念特征、位置特征和显示特征,基于步骤三十一中的公式,经过多次实验迭代,取得较好匹配度和区分度的值后,来进行特征领域适应性分析;步骤三十三,使用样本对步骤三十二中评价值较高的单个特征进一步对不同领域进行评价分析,观察其在不同抽取问题上的表现,以找出通用的特征,方便以后快速重复使用;步骤三十四,使用样本对步骤三十二中评价值较高的多个相关联单个特征组合成一系列复合特征,以提高信息抽...
【专利技术属性】
技术研发人员:朱文浩,徐永林,胡冠男,丁伯汉,郭心怡,居朝友,
申请(专利权)人:上海大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。