This application provides a new concept of association rules model discovery method and device, through access to the current business scene of training data, and according to the training corpus generation including training vocabulary and real valued vector recommendation model; association rule model and obtain corresponding to the current business scene, and according to the recommended model to determine the new concept according to the association rules model of each tuple, the new concept of the added to the association rules model. By learning the training corpus of the current business scene, the method extends the business concept in the established rule association model, thus improving the rule Association model. The method of discovering new concepts provided in this application can discover new concepts in the business domain, and find a new concept with higher correlation degree in the associated model of rules, and solve the problem that the traditional modeling methods are easy to cause information loss and make the model imperfect.
【技术实现步骤摘要】
规则关联模型的新概念发现方法及装置
本申请涉及数据挖掘
,尤其涉及一种规则关联模型的新概念发现方法及装置。
技术介绍
关联分析是指从数据库中发现数据规律以及数据之间的关联关系,数据规律和数据之间的关联关系在具体业务场景的控制决策过程中,具有重要的参考价值。对于具体的业务场景,关联分析是在业务场景的样本数据中梳理所关注的业务概念,以及概念之间的关联关系,并将业务概念和概念之间的关联关系作为模型进行保存,以便服务于后续业务的控制和决策。现有的关联分析方法主要依赖于机器学习算法,如通过候选集生成和情节向下封闭检测两个阶段来挖掘频繁项集的Apriori算法,以及基于频繁模式树数据结构的FPGrowth算法。现有技术中的机器学习算法本身挖掘到的数据量较大,关联关系的确定依赖于结果评价指标,如置信度等,这些评价指标一般是统计数据,对于具体的业务场景,不能保证有效的定位具有使用价值的关联结果。因此,在实际数据挖掘过程中,需要根据具体业务场景以特定的规则建立关联模型。但对于具体的业务场景而言,业务概念会随着整个业务领域的发展不断增多,构建的模型中并不能及时更新这部分新概念, ...
【技术保护点】
一种规则关联模型的新概念发现方法,其特征在于,包括:获取当前业务场景的训练语料;根据所述训练语料生成推荐模型,所述推荐模型包括训练词汇表以及所述训练词汇表中每个词汇的实数值向量;获取当前业务场景对应的规则关联模型,并根据所述推荐模型确定与所述规则关联模型中业务概念相对应的新概念;将所述新概念添加到所述规则关联模型中。
【技术特征摘要】
1.一种规则关联模型的新概念发现方法,其特征在于,包括:获取当前业务场景的训练语料;根据所述训练语料生成推荐模型,所述推荐模型包括训练词汇表以及所述训练词汇表中每个词汇的实数值向量;获取当前业务场景对应的规则关联模型,并根据所述推荐模型确定与所述规则关联模型中业务概念相对应的新概念;将所述新概念添加到所述规则关联模型中。2.根据权利要求1所述的方法,其特征在于,所述获取当前业务场景的训练语料步骤,包括:确定当前业务场景;获取所述当前业务场景的业务数据;从所述业务数据中提取样本数据,并将所述样本数据作为所述训练语料。3.根据权利要求1所述的方法,其特征在于,所述根据所述训练语料生成推荐模型,的步骤,包括:对所述训练语料进行逐条分词生成分词列表,并获取停用词汇表;根据所述停用词汇表,筛选所述分词列表中的停用词汇,并将所述停用词汇移除分词列表;将筛选后的所述分词列表确定为训练词汇表,并根据所述训练词汇表中的词汇在所述训练语料文本的位置生成词空间向量模型;根据所述词空间向量模型确定所述训练词汇表中每个词汇的实数值向量。4.根据权利要求1所述的方法,其特征在于,所述获取当前业务场景对应的规则关联模型,并根据所述推荐模型确定与所述规则关联模型中业务概念相对应的新概念的步骤,包括:获取所述当前业务场景的规则关联模型,以及所述规则关联模型中所有元组的业务概念;根据所述推荐模型确定所述业务概念与所述训练词汇表中每个词汇的所述实数值向量的关联度;根据所述关联度对每个所述业务概念对应所有词汇进行排序,确定新概念,并将所述新概念添加到所述规则关联模型。5.根据权利要求4所述的方法,其特征在于,所述根据所述关联度对所述业务概念进行排序,确定新概念,并将所述新概念添加到所述规则关联模型的步骤,包括:根据所述关联度,由大到小依次对所述词汇进行排序,生成概念列表;根据所述当前业务场景确定关联度阈值,并对比所述概念列表中每个词汇对应的关联度与所述关联度阈值;如果所述词汇未出现在所述规则关联模型中,且所述词汇对应的关联度大于或等于所述关联度阈值,则确定所述词汇为新概念;将所述新概念添加到所述规则关联模型。6.一种规则关联模型的新概念发现装置,其特征在于,包括:数据输入模块,用...
【专利技术属性】
技术研发人员:席丽娜,李德彦,王文军,
申请(专利权)人:北京神州泰岳软件股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。