一种网页结构化信息抽取方法技术

技术编号:16286824 阅读:87 留言:0更新日期:2017-09-25 04:49
本发明专利技术设计一种网页结构化信息抽取方法,网页信息抽取的主要任务就是对网页库中的非结构化信息进行提取,以结构化数据的方式存储在数据库中。主要包括网页分析、制定抽取规则、元数据抽取和信息整合四个方面。首先需要对目标网页进行分析,确定待抽取的元数据并分析其对应的HTML代码特点。然后,根据待抽取元数据在网页中对应的代码特点制定相应的抽取规则,抽取规则的制定要保证对待抽取数据匹配的唯一性。根据制定的抽取规则,所有待抽取的字段信息都会准确地从网页文本中抽取出来,并作为结构化数据存储到数据库中。最后对抽取后的结构化数据进行整合处理,确保数据库中信息的一致性和完整性。

Method for extracting structured information of web pages

The invention designs a web structured information extraction method, and the main task of Web information extraction is to extract unstructured information from a web page and store it in a database by structured data. It mainly includes four aspects: web analysis, extraction rule extraction, metadata extraction and information integration. First of all, we need to analyze the target page, determine the metadata to be extracted, and analyze the corresponding HTML code characteristics. Then, the corresponding extraction rules are formulated according to the corresponding code characteristics of the metadata to be extracted. The extraction rules are formulated to ensure the uniqueness of the matching of the extracted data. According to the extracted rules, all the field information to be extracted will be extracted from the web pages accurately, and stored as a structured data in the database. Finally, the extracted structured data is integrated to ensure the consistency and integrity of the information in the database.

【技术实现步骤摘要】

本专利技术涉及信息抽取方法,特别是一种网页结构化信息抽取方法
技术介绍
信息抽取(InformationExtraction,IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起,这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较,例如比较不同的招聘和商品信息。还有一个好处是能对数据作自动化处理,例如用数据挖掘方法发现和解释数据模型。信息抽取技术对于从大量的文档中抽取需要的特定信息来说是非常有用的,它并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,由系统设计时定下的领域范围而定。IE系统中的关键组成部分就是一系列的抽取规则或模式,其作用是确定需要抽取的信息。因特网提供了一个巨大的信息源,这种信息源往往是半结构化的,虽然中间夹杂着结构化和自由文本。互联网上同一主题的信息通常分散存本文档来自技高网...

【技术保护点】
一种网页结构化信息抽取方法,其特征在于:包括以下步骤:A、网页分析对目标网页进行分析,确定待抽取的元数据并分析其对应的HTML代码特点;B、制定抽取规则:该抽取规则包括采样、识别需要抽取的信息代码片段、建立匹配模式、构建信息抽取程序和匹配模式和抽取程序验证五个部分;B1、采样:针对一个站点,下载20个典型的输出页面的源代码作为分析和验证的样本;B2、识别需要抽取的信息代码片段:选取任意一个下载的源代码作为构建匹配模式的样本,通过可视化的HTML编辑器手工选择需要抽取的信息,然后切换到源代码编辑模式,这是就能够看到需要抽取的信息对应的HTML源代码片断,将这些代码片断标记下来;B3、建立匹配模式...

【技术特征摘要】
1.一种网页结构化信息抽取方法,其特征在于:包括以下步骤:
A、网页分析
对目标网页进行分析,确定待抽取的元数据并分析其对应的HTML代码特
点;
B、制定抽取规则:
该抽取规则包括采样、识别需要抽取的信息代码片段、建立匹配模式、构
建信息抽取程序和匹配模式和抽取程序验证五个部分;
B1、采样:
针对一个站点,下载20个典型的输出页面的源代码作为分析和验证的样本;
B2、识别需要抽取的信息代码片段:
选取任意一个下载的源代码作为构建匹配模式的样本,通过可视化的
HTML编辑器手工选择需要抽取的信息,然后切换到源代码编辑模式,这是就
能够看到需要抽取的信息对应的HTML源代码片断,将这些代码片断标记下来;
B3、建立匹配模式:
对于每一个已标记的信息片断,采用正则表达式为它建立一个通用的匹配
模式串;该模式匹配要求只能构匹配被标记的代码片段,同...

【专利技术属性】
技术研发人员:侯辛酉夏铭泽
申请(专利权)人:大连灵动科技发展有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1