The invention discloses a method and a device for mining the association rules model unknown relationship, according to the established context word vector space model reference sample data, correlation analysis algorithm to generate two yuan relational expression matching concept association rules model of two expressions will be in vocabulary and access to, if the match is successful, and two yuan in the expression of vocabulary in the association rules model does not establish mutual relationship, two yuan relationship expression generation association rules model. Can use two yuan relationship expression association rules model and generate and effective positioning results associated with the use value, and help enterprises, businesses and users to adjust the market policy and make the right decisions.
【技术实现步骤摘要】
一种挖掘规则关联模型未知关联关系的方法及装置
本申请涉及数据挖掘
,尤其涉及一种挖掘规则关联模型未知关联关系的方法及装置。
技术介绍
在大数据时代,数据挖掘是最关键的工作。大数据的数据挖掘是从海量和随机的大型数据库中发现隐含在其中有用的信息和知识的过程,也是一种决策支持过程。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家和用户调整市场政策并做出正确的决策。通过关联分析进行数据挖掘是常用的方法之一,关联分析可以发现隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。现有的关联分析的方法,大多基于现有机器学习算法,如Apriori算法和FPGrowth算法等。以Apriori算法为例,首先找出所有一元频繁项集,将所有一元频繁项集的支持度与预先设置的最小支持度对比,如果有一元频繁项集的支持度小于最小支持度,则该一元频繁项集作为无效项集被剪枝,然后,再根据上一步中剩余的一元频繁项集建立二元频繁项集,将所有二元频繁项集的支持度与最小支持度对比,如果有二元频繁项集的支持度小于最小支持度,则该二元频 ...
【技术保护点】
一种挖掘规则关联模型未知关联关系的方法,其特征在于,所述方法包括:获取样本数据和规则关联模型,所述规则关联模型包括n个元组,n为大于1的正整数,每个所述元组包括至少一个概念;根据所述样本数据,建立上下文词空间向量模型,所述上下文词空间向量模型包括k个词汇,k为大于1的正整数;根据所述上下文词空间向量模型,生成二元关系表达式,所述二元关系表达式包括2个词汇;将所述二元关系表达式与所述规则关联模型匹配,根据匹配结果,生成所述规则关联模型的二元关联关系表达式。
【技术特征摘要】
1.一种挖掘规则关联模型未知关联关系的方法,其特征在于,所述方法包括:获取样本数据和规则关联模型,所述规则关联模型包括n个元组,n为大于1的正整数,每个所述元组包括至少一个概念;根据所述样本数据,建立上下文词空间向量模型,所述上下文词空间向量模型包括k个词汇,k为大于1的正整数;根据所述上下文词空间向量模型,生成二元关系表达式,所述二元关系表达式包括2个词汇;将所述二元关系表达式与所述规则关联模型匹配,根据匹配结果,生成所述规则关联模型的二元关联关系表达式。2.根据权利要求1所述的方法,其特征在于,所述根据样本数据,建立上下文词空间向量模型之前,还包括:预处理所述样本数据,所述预处理包括:分词和过滤停用词。3.根据权利要求1所述的方法,其特征在于,所述根据所述上下文词空间向量模型,生成二元关系表达式的步骤包括:根据所述上下文词空间向量模型,生成数个关系表达式,所述关系表达式由m个词汇组成,m为大于或者等于1的正整数;提取所述关系表达式中由2个词汇组成的二元关系表达式。4.根据权利要求1所述的方法,其特征在于,所述将二元关系表达式与所述规则关联模型匹配,根据匹配结果,生成所述规则关联模型的二元关联关系表达式的步骤包括:将所述二元关系表达式中的词汇与所述规则关联模型中的概念匹配;如果匹配成功,则判断所述二元关系表达式中的2个词汇是否已经在所述关联规则模型中建立关联关系;如果所述二元关系表达式中的2个词汇未在所述关联规则模型中建立关联关系,则生成由二元关系表达式中的2个词组成的二元关联关系表达式。5.根据权利要求4所述的方法,其特征在于,所述将二元关系表达式中的词汇与所述规则关联模型中的概念匹配的步骤包括:判断所述二元关系表达式中的词汇是否同时存在于所述规则关联模型的不同元组中;如果所述二元关系表达式中的词汇同时存在于所述规则关联模型的不同元组中,则判断所述词汇所处的元组是否是相邻的元组;如果所述词汇所处的元组是相邻的元组,则匹配成功。6.一种挖...
【专利技术属性】
技术研发人员:席丽娜,晋耀红,李德彦,
申请(专利权)人:北京神州泰岳软件股份有限公司,中科鼎富北京科技发展有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。