The embodiment of the invention provides a data high-speed processing and conversion communication method, which comprises steps: collecting web page data according to preset data acquisition rules; filtering and normalizing the collected web page data to obtain screening data; adopting preset classification model to obtain screening data Classified K-class data are obtained by classifying, and the classified K-class data are processed at high speed in the FPGA chip of the RF high-speed data processing board. Applying the embodiment of the present invention, the web page data can be effectively extracted and the duplicate information can be normalized to facilitate the effective utilization of the web page data by users.
【技术实现步骤摘要】
一种数据高速处理转换通信方法及装置
本专利技术涉及电子
,尤其涉及一种数据高速处理转换通信方法及装置。
技术介绍
随着计算机的普及以及互联网(WWW)的迅猛发展,大量的信息以电子文档的形式出现在人们面前。为了应对信息爆炸带来的严重挑战,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息。信息抽取(InformationExtraction)研究正是在这种背景下产生的。信息抽取系统的主要功能是从文本中抽取出特定的事实信息(factualinformation)。比如,从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等;从经济新闻中抽取出公司发布新产品的情况:公司名、产品名、发布时间、产品性能等;从病人的医疗记录中抽取出症状、诊断记录、检验结果、处方等等。通常,被抽取出来的信息以结构化的形式描述,可以直接存入数据库中,供用户查询以及进一步分析利用。信息抽取领域是一项新兴的研究领域,一般是指从一个给定的文档集合中自动识别出预先设定的实体、关系和事件等类型信息,并对这些信息进行结构化存储和管理的过程。信息抽取在许多领域均有重要的应用。与信息抽取密切相关的一项研究是信息检索,但信息抽取与信息检索存在差异,主要表现在三个方面:①功能不同。信息检索系统主要是从大量的文档集合中找到与用户需求相关的文档列表;而信息抽取系统则旨在从文本中直接获得用户感兴趣的事实信息。②处理技术不同。信息检索系统通常利用统计及关键词匹配等技术,把文本看成词的集合(bagsofwords),不需要对文本进行深入分析理解;而信息抽取往往 ...
【技术保护点】
1.一种数据高速处理转换通信方法,其特征在于,所述方法包括步骤:根据预设的数据采集规则,收集网页数据;对所收集到的网页数据进行过滤以及归一化处理,获得筛选数据;采用预设分类模型,对所获得的筛选数据进行分类,获得分类后的K类数据;采用射频高速数据处理板卡中的FPGA芯片内,对分类后的K类数据进行高速处理。
【技术特征摘要】
1.一种数据高速处理转换通信方法,其特征在于,所述方法包括步骤:根据预设的数据采集规则,收集网页数据;对所收集到的网页数据进行过滤以及归一化处理,获得筛选数据;采用预设分类模型,对所获得的筛选数据进行分类,获得分类后的K类数据;采用射频高速数据处理板卡中的FPGA芯片内,对分类后的K类数据进行高速处理。2.根据权利要求1所述的一种数据高速处理转换通信方法,其特征在于,所述根据预设的数据采集规则,收集网页数据,包括:根据预期目标定制数据采集网页;根据网页结构,确定网页主体数据区块,自动生成网页数据抽取模板抽取网页数据。3.根据权利要求1所述的一种数据高速处理转换通信方法,其特征在于,所述对所收集到的网页数据进行过滤以及归一化处理,获得筛选数据步骤之后,所述方法还包括:对所述筛选数据的每一段文本进行编码,根据编码进行分段对比,判断数据重复程度;将重复数据归一化,筛选数据。4.根据权利要求1所述的一种数据高速处理转换通信方法,其特征在于,所述根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库,包括:根据分...
【专利技术属性】
技术研发人员:李永敢,
申请(专利权)人:佛山市聚成知识产权服务有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。