The invention provides a data processing method, which comprises the following steps: from the default data source acquisition web \; to determine their acquisition of the web web page, the web page category; category is divided according to different objects of the preset data sources include\ as described in the web page information extraction; wrapper using the \category from the corresponding acquisition; among them, the wrapper for the web page according to the categories corresponding described attributes of objects; will be extracted from the effective information into a preset standard format and stored. The invention can effectively network data processing people need cumbersome data improves the utilization value, network data.
【技术实现步骤摘要】
一种数据处理方法和系统
本专利技术属于数据处理领域,具体涉及一种数据处理方法和系统。
技术介绍
数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响着人类社会发展的进程。数据处理能够及时发现并纠正数据文件中可识别的错误并将错误进行纠正,主要包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据称为“脏数据”。这些“脏数据”如果不进行处理,将会对数据的实际价值产生干扰,进而影响数据价值。现有技术的数据处理方法主要针对来自数据库的结构化的数据,而随着计算机网络技术的飞速发展,产生了大量有价值的网络数据,而网络数据中大部分为半结构化和非结构化的数据,而现有技术中缺乏针对网络数据的有效的数据处理方法。
技术实现思路
...
【技术保护点】
一种数据处理方法,其特征在于,包括以下步骤:从预设数据源采集web网页;确定采集的web网页所属的网页类别;其中,所述网页类别为根据所述预设数据源包括的网页所描述的不同对象划分的;采用所述网页类别对应的包装器从所述采集的web网页中抽取有效信息;其中,所述包装器为根据所述网页类别对应网页所描述对象的属性生成;将抽取到的有效信息转换成预设标准格式并存储。
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括以下步骤:从预设数据源采集web网页;确定采集的web网页所属的网页类别;其中,所述网页类别为根据所述预设数据源包括的网页所描述的不同对象划分的;采用所述网页类别对应的包装器从所述采集的web网页中抽取有效信息;其中,所述包装器为根据所述网页类别对应网页所描述对象的属性生成;将抽取到的有效信息转换成预设标准格式并存储。2.根据权利要求1所述的数据处理方法,其特征在于,在采用所述网页类别对应的包装器从所述采集的web网页中抽取有效信息之前,还包括:根据所述网页类别对应网页所描述对象的属性,从所述采集的web网页包含的文字信息中抽取所述属性对应的关键字字段;并基于抽取的关键字字段生成所述网页类别对应的包装器。3.根据权利要求2所述的数据处理方法,其特征在于,所述包装器用于为对应网页类别定义语义特征识别器和语境特征识别器;所述语义特征识别器用于根据关键字字段的语义特征对符合该语义特征的文本进行识别;所述语境特征识别器用于根据关键字字段的语境特征对符合该语境特征的文本进行识别;采用所述网页类别对应的包装器从所述采集的web网页中抽取有效信息,具体包括:针对抽取的每个关键字字段,根据该关键字字段的语义特征,采用对应的语义特征识别器从所述采集的web网页包含的文字信息中确定符合所述语义特征的文本;以及使用对应的语境特征识别器从符合所述语义特征的文本中识别符合该关键字字段语境特征的文本,并作为该关键字字段对应的文本值。4.根据权利要求3所述的数据处理方法,其特征在于,所述包装器还用于定义关键字字段对应文本值的标准格式;将抽取到的有效信息转换成预设标准格式并存储,具体包括:针对每个关键字字段,将该关键字字段对应的文本值转换为对应的预设标准格式并存储。5.根据权利要求2-4任一项所述的数据处理方法,其特征在于,在将抽取到的有效信息进行存储之前,还包括:对所抽取到的有效信息中描述同一对象的关键字字段进行数据标准化处理,以消除表征相同意义的关键字字段之间的预设冲突;所述预设冲突包括:...
【专利技术属性】
技术研发人员:陈进宝,刘希,唐妍,
申请(专利权)人:国信优易数据有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。