The invention discloses a data mining method and a device, relating to the technical field of data processing, and solving the problem of low accuracy of existing data mining. The main technical scheme of the invention is that the extraction industry characteristic information, the characteristic information from the mining industry is a number of words in the data extraction; all the characteristics of the industry and industry information industry preset in the knowledge base of information industry, the preset industry knowledge base stored in correspondence with the all sectors were industry information; acquisition and feature information of the industry, the highest degree of industry; according to the acquisition of the mining industry, data mining. The invention is mainly used for mining data.
【技术实现步骤摘要】
数据挖掘方法及装置
本专利技术涉及数据处理
,尤其涉及一种数据挖掘方法及装置。
技术介绍
随着互联网在全球范围内的飞速发展,互联网每日都会产生数以万计的数据,为了从这些数据中获取有价值的信息,则需要对这些数据进行有效的挖掘。其中,数据挖掘又称数据库中的知识发现(KnowledgeDiscoverinDatabase,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。目前,在对网络中各种数据进行整体挖掘时,由于网络中的各种数据对应的行业或维度不同,因此在对数据进行挖掘时会存在行业或维度等干扰信息,从而造成挖掘的数据无法达到预期效果,进而现有的数据挖掘方法挖掘的数据准确率低。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的为达到上述目的,本专利技术主要提供如下技术方案:一方面,本专利技术实施例提供了一种数据挖掘方法,该方法包括:提取行业特征信息,所述行业特征信息是从所述待挖掘数据中提取的多个词语;将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,所述预置行业知识库中保存有与各个行业的分别对应的行业信息;获取与所述行业特征信息匹配度最高的行业;根据所述获取的行业,对所述待挖掘数据进行数据挖 ...
【技术保护点】
一种数据挖掘方法,其特征在于,包括:提取行业特征信息,所述行业特征信息是从所述待挖掘数据中提取的多个词语;将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,所述预置行业知识库中保存有与各个行业分别对应的行业信息;获取与所述行业特征信息匹配度最高的行业;根据所述获取的行业,对所述待挖掘数据进行数据挖掘。
【技术特征摘要】
1.一种数据挖掘方法,其特征在于,包括:提取行业特征信息,所述行业特征信息是从所述待挖掘数据中提取的多个词语;将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,所述预置行业知识库中保存有与各个行业分别对应的行业信息;获取与所述行业特征信息匹配度最高的行业;根据所述获取的行业,对所述待挖掘数据进行数据挖掘。2.根据权利要求1所述的数据挖掘方法,其特征在于,所述提取行业特征信包括:对所述待挖掘数据进行分词;按照预置过滤规则对所述待挖掘数据中的词语进行过滤;将所述待挖掘数据中过滤后的各个词语确定为所述行业特征信息。3.根据权利要求2所述的数据挖掘方法,其特征在于,所述按照预置过滤规则对所述待挖掘数据中的词语进行过滤后,所述方法还包括:获取所述过滤后的各个词语分别在所述待挖掘数据中出现的次数;获取出现次数大于预置阈值的词语;所述将所述待挖掘数据中过滤后的各个词语确定为所述行业特征信息包括:将所述出现次数大于预置阈值的词语确定为所述行业特征信息。4.根据权利要求3所述的数据挖掘方法,其特征在于,所述将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配之前,所述方法还包括:根据预置行业分类标准对所述预置行业知识库中的行业进行分类;根据预置行业层级标准将所述预置行业知识库中的各个行业划分成多个行业层级。5.根据权利要求4所述的数据挖掘方法,其特征在于,所述将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配包括:将所述行业特征信息和预置行业知识库中的最高层级的各个行业的行业信息分别进行匹配;判断与所述行业特征信息匹配度最高的最高层级的行...
【专利技术属性】
技术研发人员:刘嘉,钦滨杰,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。