一种数据高速处理转换通信方法及装置制造方法及图纸

技术编号:18668251 阅读:23 留言:0更新日期:2018-08-14 20:38
本发明专利技术实施例提供了一种数据高速处理转换通信方法,所述方法包括步骤:根据预设的数据采集规则,收集网页数据;对所收集到的网页数据进行过滤以及归一化处理,获得筛选数据;采用预设分类模型,对所获得的筛选数据进行分类,获得分类后的K类数据;采用射频高速数据处理板卡中的FPGA芯片内,对分类后的K类数据进行高速处理。应用本发明专利技术的实施例,可有效抽取网页数据,并对重复信息进行归一化,方便用户对网页数据的有效利用。

Data high speed processing conversion communication method and device

The embodiment of the invention provides a data high-speed processing and conversion communication method, which comprises steps: collecting web page data according to preset data acquisition rules; filtering and normalizing the collected web page data to obtain screening data; adopting preset classification model to obtain screening data Classified K-class data are obtained by classifying, and the classified K-class data are processed at high speed in the FPGA chip of the RF high-speed data processing board. Applying the embodiment of the present invention, the web page data can be effectively extracted and the duplicate information can be normalized to facilitate the effective utilization of the web page data by users.

【技术实现步骤摘要】
一种数据高速处理转换通信方法及装置
本专利技术涉及电子
,尤其涉及一种数据高速处理转换通信方法及装置。
技术介绍
随着计算机的普及以及互联网(WWW)的迅猛发展,大量的信息以电子文档的形式出现在人们面前。为了应对信息爆炸带来的严重挑战,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息。信息抽取(InformationExtraction)研究正是在这种背景下产生的。信息抽取系统的主要功能是从文本中抽取出特定的事实信息(factualinformation)。比如,从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等;从经济新闻中抽取出公司发布新产品的情况:公司名、产品名、发布时间、产品性能等;从病人的医疗记录中抽取出症状、诊断记录、检验结果、处方等等。通常,被抽取出来的信息以结构化的形式描述,可以直接存入数据库中,供用户查询以及进一步分析利用。信息抽取领域是一项新兴的研究领域,一般是指从一个给定的文档集合中自动识别出预先设定的实体、关系和事件等类型信息,并对这些信息进行结构化存储和管理的过程。信息抽取在许多领域均有重要的应用。与信息抽取密切相关的一项研究是信息检索,但信息抽取与信息检索存在差异,主要表现在三个方面:①功能不同。信息检索系统主要是从大量的文档集合中找到与用户需求相关的文档列表;而信息抽取系统则旨在从文本中直接获得用户感兴趣的事实信息。②处理技术不同。信息检索系统通常利用统计及关键词匹配等技术,把文本看成词的集合(bagsofwords),不需要对文本进行深入分析理解;而信息抽取往往要借助自然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成。③适用领域不同。由于采用的技术不同,信息检索系统通常是领域无关的,而信息抽取系统则是领域相关的,只能抽取系统预先设定好的有限种类的事实信息。另一方面,信息检索与信息抽取又是互补的。为了处理海量文本,信息抽取系统通常以信息检索系统(如文本过滤)的输出作为输入;而信息抽取技术又可以用来提高信息检索系统的性能。二者的结合能够更好地服务于用户的信息处理需求。信息抽取虽然需要对文本进行一定程度的理解,但与真正的文本理解(TextUnderstanding)还是不同的。在信息抽取中,用户一般只关心有限的感兴趣的事实信息,而不关心文本意义的细微差别以及作者的写作意图等深层理解问题[1]。因此,信息抽取只能算是一种浅层的或者说简化的文本理解技术。一般来说,信息抽取系统的处理对象是自然语言文本尤其是非结构化文本。但广义上讲,除了电子文本以外,信息抽取系统的处理对象还可以是语音、图像、视频等其他媒体类型的数据。在这里,我们只讨论狭义上的信息抽取研究,即针对自然语言文本的信息抽取。近年来,随着网络的发展,互联网上的信息越来越多。几乎所有的网上信息都是以结构化或者半结构化文本的形式呈现给用户的。网页信息抽取就是把网页中包含的有关信息抽取出来并进行结构化处理,使之变成表格一样的组织形式。网页信息的主要任务就是把预定的信息点从各种各样的网页中抽取出来,然后以统一的形式集成在一起,方便检查和比较。在互联网上,同一主题的信息通常分散存放在不同的网站上,表现的形式也各不相同,现有技术中,很难将预期的网页数据挖掘完全。另外,互联网上,信息转载频繁,如何实现重复信息的归一化,也是一项关键。
技术实现思路
本专利技术实施例的目的在于提供一种数据高速处理转换通信方法及装置,可有效抽取网页数据,并对重复信息进行归一化,方便用户对网页数据的有效利用。为了达到上述目的,本专利技术实施例提供了一种数据高速处理转换通信方法,所述方法包括步骤:根据预设的数据采集规则,收集网页数据;对所收集到的网页数据进行过滤以及归一化处理,获得筛选数据;采用预设分类模型,对所获得的筛选数据进行分类,获得分类后的K类数据;采用射频高速数据处理板卡中的FPGA芯片内,对分类后的K类数据进行高速处理。可选的,所述根据预设的数据采集规则,收集网页数据,包括:根据预期目标定制数据采集网页;根据网页结构,确定网页主体数据区块,自动生成网页数据抽取模板抽取网页数据。可选的,所述对所收集到的网页数据进行过滤以及归一化处理,获得筛选数据步骤之后,所述方法还包括:对所述筛选数据的每一段文本进行编码,根据编码进行分段对比,判断数据重复程度;将重复数据归一化,筛选数据。可选的,所述根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库,包括:根据分类以及聚类结果,对K类数据进行分类,对每一个数据类内所包含的数据进行聚类,将数据统一存储并建立索引,形成大数据库。可选的,所述对所收集到的网页数据进行过滤,包括:采用布隆过滤器,对所收集到的网页数据进行过滤。可选的,根据分类结果,大数据库分为话题、数据类两个级别,在此基础上进行的两种聚类分析。可选的,根据分类结果,大数据库细分为话题、话题簇、数据类、数据类簇四个级别,在此基础上进行的四种聚类分析。一种数据高速处理转换通信装置,其特征在于,包括:收集模块,用于根据预设的数据采集规则,收集网页数据;获得模块,用于对所收集到的网页数据进行过滤以及归一化处理,获得筛选数据;分类模块,用于采用预设分类模型,对所获得的筛选数据进行分类,获得分类后的K类数据;处理模块,用于采用射频高速数据处理板卡中的FPGA芯片内,对分类后的K类数据进行高速处理。有益效果:本专利技术实施例提供的一种数据高速处理转换通信方法及装置,抽取网页数据的方式,效率高,查全率好,避免信息遗漏;能够有效消除重复信息,大大减少了数据所占空间,消除冗余,减小了后续处理的负荷量,提高数据处理效率;预制分类模型和聚类算法,对数据进行分类和聚类分析,数据统一存储建立数据库并建立数据库索引,方便用户对抽取数据的管理、检索和利用。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是数据高速处理转换通信方法的第一种流程示意图。图2是图数据处理方法的第二种流程示意图。图3是图数据处理装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。下面通过具体实施例,对本专利技术进行详细的说明。参见图1,为本专利技术提供的数据高速处理转换通信方法的流程示意图,包括入步骤如下:S101,根据预设的数据采集规则,收集网页数据;S102,对所收集到的网页数据进行过滤以及归一化处理,获得筛选数据;S103,采用预设分类模型,对所获得的筛选数据进行分类,获得分类后的K类数据;S104,采用射频高速数据处理板卡中的FPGA芯片内,对分类后的K类数据进行高速处理。本实施方式中,根据预期目标定制数据采集网页,采集网页的来源有两种方式,参见图2,分别为:S201,预制行业内网页作本文档来自技高网
...

【技术保护点】
1.一种数据高速处理转换通信方法,其特征在于,所述方法包括步骤:根据预设的数据采集规则,收集网页数据;对所收集到的网页数据进行过滤以及归一化处理,获得筛选数据;采用预设分类模型,对所获得的筛选数据进行分类,获得分类后的K类数据;采用射频高速数据处理板卡中的FPGA芯片内,对分类后的K类数据进行高速处理。

【技术特征摘要】
1.一种数据高速处理转换通信方法,其特征在于,所述方法包括步骤:根据预设的数据采集规则,收集网页数据;对所收集到的网页数据进行过滤以及归一化处理,获得筛选数据;采用预设分类模型,对所获得的筛选数据进行分类,获得分类后的K类数据;采用射频高速数据处理板卡中的FPGA芯片内,对分类后的K类数据进行高速处理。2.根据权利要求1所述的一种数据高速处理转换通信方法,其特征在于,所述根据预设的数据采集规则,收集网页数据,包括:根据预期目标定制数据采集网页;根据网页结构,确定网页主体数据区块,自动生成网页数据抽取模板抽取网页数据。3.根据权利要求1所述的一种数据高速处理转换通信方法,其特征在于,所述对所收集到的网页数据进行过滤以及归一化处理,获得筛选数据步骤之后,所述方法还包括:对所述筛选数据的每一段文本进行编码,根据编码进行分段对比,判断数据重复程度;将重复数据归一化,筛选数据。4.根据权利要求1所述的一种数据高速处理转换通信方法,其特征在于,所述根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库,包括:根据分...

【专利技术属性】
技术研发人员:李永敢
申请(专利权)人:佛山市聚成知识产权服务有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1