数据挖掘方法及装置制造方法及图纸

技术编号:15542081 阅读:129 留言:0更新日期:2017-06-05 11:11
本发明专利技术公开了一种数据挖掘方法及装置,涉及数据处理技术领域,解决了现有的数据挖掘准确率低的问题。本发明专利技术的主要技术方案为:提取行业特征信息,所述行业特征信息是从所述待挖掘数据中提取的多个词语;将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,所述预置行业知识库中保存有与各个行业分别对应的行业信息;获取与所述行业特征信息匹配度最高的行业;根据所述获取的行业,对所述待挖掘数据进行数据挖掘。本发明专利技术主要用于挖掘数据。

Data mining method and device

The invention discloses a data mining method and a device, relating to the technical field of data processing, and solving the problem of low accuracy of existing data mining. The main technical scheme of the invention is that the extraction industry characteristic information, the characteristic information from the mining industry is a number of words in the data extraction; all the characteristics of the industry and industry information industry preset in the knowledge base of information industry, the preset industry knowledge base stored in correspondence with the all sectors were industry information; acquisition and feature information of the industry, the highest degree of industry; according to the acquisition of the mining industry, data mining. The invention is mainly used for mining data.

【技术实现步骤摘要】
数据挖掘方法及装置
本专利技术涉及数据处理
,尤其涉及一种数据挖掘方法及装置。
技术介绍
随着互联网在全球范围内的飞速发展,互联网每日都会产生数以万计的数据,为了从这些数据中获取有价值的信息,则需要对这些数据进行有效的挖掘。其中,数据挖掘又称数据库中的知识发现(KnowledgeDiscoverinDatabase,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。目前,在对网络中各种数据进行整体挖掘时,由于网络中的各种数据对应的行业或维度不同,因此在对数据进行挖掘时会存在行业或维度等干扰信息,从而造成挖掘的数据无法达到预期效果,进而现有的数据挖掘方法挖掘的数据准确率低。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的为达到上述目的,本专利技术主要提供如下技术方案:一方面,本专利技术实施例提供了一种数据挖掘方法,该方法包括:提取行业特征信息,所述行业特征信息是从所述待挖掘数据中提取的多个词语;将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,所述预置行业知识库中保存有与各个行业的分别对应的行业信息;获取与所述行业特征信息匹配度最高的行业;根据所述获取的行业,对所述待挖掘数据进行数据挖掘。另一方面,本专利技术实施例还提供一种数据挖掘装置,该装置包括:提取单元,用于提取行业特征信息,所述行业特征信息是从所述待挖掘数据中提取的多个词语;匹配单元,用于将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,所述预置行业知识库中保存有与各个行业的分别对应的行业信息;获取单元,用于获取与所述行业特征信息匹配度最高的行业;挖掘单元,用于根据所述获取的行业,对所述待挖掘数据进行数据挖掘。借由上述技术方案,本专利技术实施例提供的技术方案至少具有下列优点:本专利技术实施例提供的一种数据挖掘方法及装置,首先从待挖掘数据中提取行业特征信息,所述行业特征信息是从所述待挖掘数据中提取的多个词语,然后将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,所述预置行业知识库中保存有与各个行业分别对应的行业信息,获取与所述行业特征信息匹配度最高的行业,最后根据所述获取的行业,对所述待挖掘数据进行数据挖掘。与目前对网络中各种数据进行整体挖掘相比,本专利技术首先从待挖掘数据中提取行业特征信息,然后将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,从中获取与所述行业特征信息匹配度最高的行业,最后根据所述获取的行业,对所述待挖掘数据进行数据挖掘,从而实现了根据待挖掘数据对应的行业对待挖掘数据的挖掘,进而提高了数据挖掘的准确性。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本专利技术实施例提供的一种数据挖掘方法流程图;图2为本专利技术实施例提供的另一种数据挖掘方法流程图;图3为本专利技术实施例提供的一种数据挖掘装置的组成框图;图4为本专利技术实施例提供的另一种数据挖掘装置的组成框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。为使本专利技术技术方案的优点更加清楚,下面结合附图和实施例对本专利技术作详细说明。本专利技术实施例提供了一种数据挖掘方法,如图1所示,所述方法包括:S101、提取行业特征信息。其中,所述行业特征信息是从所述待挖掘数据中提取的多个词语。在本专利技术实施例中,所述行业特征信息用于表示待挖掘数据所对应的实际意义,具体可以为名词、形容词等,本专利技术实施例不做具体限定。需要说明的是,从待挖掘数据中提取行业特征信息的过程具体可以如下所示:首先需要对待挖掘数据进行分词,然后可通过NLP(神经语言程序学)技术对待挖掘数据中划分的词进行分析,去除待挖掘数据中一些没有实际意义的词语,以及语法错误的词语,最后将待挖掘中剩下的词语确定为行业特征信息。在本专利技术实施例中,从待挖掘数据中提取行业特征信息,是为了在后续步骤中通过所述行业特征信息确定待挖掘数据所对应的行业。S102、将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配。其中,所述预置行业知识库中保存有与各个行业分别对应的行业信息。所述预置行业知识库可以根据实际行业分类需求建立,也可以根据用户对行业分类的需求建立,本专利技术实施例不做具体限定。需要说明的是,预置行业知识库中保存的各个行业的行业信息,具体可以包括产品信息、公司信息、人物信息等一列列主体关联关系的信息,本专利技术实施例不做具体限定。在本专利技术实施例中,将行业特征信息和预置知识行业库中各个行业的行业信息分别进行匹配,即分别计算行业特征信息和预置知识行业库中各个行业的行业信息的相似度。例如,行业特征信息的内容具体为中国人民银行、金融、人民币、发行、假币、等特征信息,则需要将这些特征信息和预置行业知识库中各个行业的行业信息进行匹配,经过匹配得到匹配度最高的行业。对于本专利技术实施例,将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,是为了确定待挖掘数据所对应的行业,然后可在后续步骤中根据待挖掘数据的行业对待挖掘数据进行挖掘,从而实现了待挖掘数据的挖掘结果符合待挖掘数据的行业特性,进而提高了数据挖掘的准确性。S103、获取与所述行业特征信息匹配度最高的行业。例如,所述行业特征信息是有由关于证券、基金、期货、银行、上市公司等信息,则经过将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,发现该行业特征信息和金融行业的匹配度为50%、和银行行业的匹配度为90%、和投资行业的匹配度为40%,则获取与所述行业特征信息匹配度最高的行业为银行行业。S104、根据所述获取的行业,对所述待挖掘数据进行数据挖掘。对于本专利技术实施例,首先从待挖掘数据中提取行业特征信息,然后将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,所述预置行业知识库中保存有与各个行业分别对应的行业信息,获取与所述行业特征信息匹配度最高的行业,最后根据所述获取的行业,对所述待挖掘数据进行数据挖掘。从而实现了待挖掘数据的挖掘结果符合待挖掘数据对应的行业特征,进而提高了数据挖掘的准确性。本专利技术实施例提供的一种数据挖掘方法,首先从待挖掘数据中提取行业特征信息,所述行业特征信息是从所述待挖掘数据中提取的多个词语,然后将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,所述预置行业知识库中保存有与各个行业分别对应的行业信息,获取与所述行业特征信息匹配度最本文档来自技高网...
数据挖掘方法及装置

【技术保护点】
一种数据挖掘方法,其特征在于,包括:提取行业特征信息,所述行业特征信息是从所述待挖掘数据中提取的多个词语;将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,所述预置行业知识库中保存有与各个行业分别对应的行业信息;获取与所述行业特征信息匹配度最高的行业;根据所述获取的行业,对所述待挖掘数据进行数据挖掘。

【技术特征摘要】
1.一种数据挖掘方法,其特征在于,包括:提取行业特征信息,所述行业特征信息是从所述待挖掘数据中提取的多个词语;将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,所述预置行业知识库中保存有与各个行业分别对应的行业信息;获取与所述行业特征信息匹配度最高的行业;根据所述获取的行业,对所述待挖掘数据进行数据挖掘。2.根据权利要求1所述的数据挖掘方法,其特征在于,所述提取行业特征信包括:对所述待挖掘数据进行分词;按照预置过滤规则对所述待挖掘数据中的词语进行过滤;将所述待挖掘数据中过滤后的各个词语确定为所述行业特征信息。3.根据权利要求2所述的数据挖掘方法,其特征在于,所述按照预置过滤规则对所述待挖掘数据中的词语进行过滤后,所述方法还包括:获取所述过滤后的各个词语分别在所述待挖掘数据中出现的次数;获取出现次数大于预置阈值的词语;所述将所述待挖掘数据中过滤后的各个词语确定为所述行业特征信息包括:将所述出现次数大于预置阈值的词语确定为所述行业特征信息。4.根据权利要求3所述的数据挖掘方法,其特征在于,所述将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配之前,所述方法还包括:根据预置行业分类标准对所述预置行业知识库中的行业进行分类;根据预置行业层级标准将所述预置行业知识库中的各个行业划分成多个行业层级。5.根据权利要求4所述的数据挖掘方法,其特征在于,所述将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配包括:将所述行业特征信息和预置行业知识库中的最高层级的各个行业的行业信息分别进行匹配;判断与所述行业特征信息匹配度最高的最高层级的行...

【专利技术属性】
技术研发人员:刘嘉钦滨杰
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1