一种基于云平台的数据汇聚、分析、挖掘与共享方法技术

技术编号:20045306 阅读:34 留言:0更新日期:2019-01-09 04:17
本发明专利技术公开了一种基于云平台的数据汇聚、分析、挖掘与共享方法,首先通过CRF词典分词预测,利用SVM算法对云平台数据进行项目申报提取和汇聚,通过向量空间模型清洗重复相似的申报项目;通过模糊C均值FCM聚类算法和多种典型算法对申报项目进行聚类分类和分析,然后以信息服务平台能够呈现的方式分享推荐给用户。本发明专利技术本发明专利技术通过CRF词典分词对词频A、词序B、词义C进行评分统计,SVM算法对云平台数据进行申报项目的提取和汇聚,通过向量空间模型清洗重复相似的申报项目;通过多种典型算法将申报项目以能够在信息服务平台中呈现的方式共享给用户。

【技术实现步骤摘要】
一种基于云平台的数据汇聚、分析、挖掘与共享方法
本专利技术涉及申报项目共享
,具体的说,是一种基于云平台的数据汇聚、分析、挖掘与共享方法。
技术介绍
我国政策性信息量膨胀,在网络上对相关政策输入关键字查找时并不会完善,并且在收藏和申报项目时手续繁琐,本专利技术基于云平台利用各种算法对分词的计算得到申报项目数据的提取、挖掘以及汇聚,并且经过分类和分析后以能够在信息服务平台上将数据呈现出来的方式共享给用户。
技术实现思路
本专利技术的目的在于提供一种基于云平台的数据汇聚、分析、挖掘与共享方法,利用CRF词典分词、向量空间模型和SVM算法对申报项目进行挖掘提取、以及对词频A、词序B、词义C进行评分打分,通过C均值FCM聚类算法对数据进行分类和分析,最后通过多种典型算法在信息服务平台上将数据共享给用户。本专利技术通过下述技术方案实现:一种基于云平台的数据汇聚、分析、挖掘与共享方法,首先通过CRF词典分词预测,利用SVM算法对云平台数据进行项目申报提取和汇聚,通过向量空间模型清洗重复相似的申报项目;通过模糊C均值FCM聚类算法和多种典型算法对申报项目进行聚类分类和分析,然后以信息服务平台能够呈现的方式分享推荐给用户。进一步地,为了更好的实现本专利技术,所述模糊C均值FCM聚类算法是基于C均值算法和FCM聚类算法并用隶属度确定每个向量数据点属于某个聚类程度,对项目申报数据进行聚类分类和分析;能够对申报项目进行分类和分析后以信息服务平台能够呈现的方式分享给用户的所述多种典型的算法包括静态数据推荐法、基于内容推荐法以及协同过滤算法;具体包括以下步骤:步骤F1:利用CRF词典分词算法对通知数据进行词频、词序以及语义的分词语料训练和分词预测,通过SVM算法对云平台数据进行项目申报提取和汇聚;向量空间模型将项目申报数据转换为向量的形式,并清洗重复相似的申报项目;步骤F2:依据FCM把n个向量xi(i=1,...,c)分为c个模糊组并求每组的聚类中心,使得非相似性指标的目标函数达到最小的原理,对项目申报数据进行分类和分析并在信息服务平台中呈现出来;步骤F3:所述静态数据推荐法是在信息服务平台中,利用用户的地区、行业等静态数据进行相应的政策性信息推荐;步骤F4:所述基于内容推荐法是在信息服务平台中,根据用户收藏的政策性信息找出与其相关的政策性信息推荐给用户;步骤F5:所述协同过滤算法是在信息服务平台中,依靠静态数据推荐法和基于内容推荐法积累的数据进行排名和共享。进一步地,为了更好的实现本专利技术,所述步骤F1具体包括以下步骤:步骤F11:将训练语料按字切分为Word2vec字向量训练特征和Brown聚类特征,并分别对Word2vec字向量训练特征进行K-Means聚类特征提取和Brown聚类特征进行提取,存放入训练CRF分词模型中进行CRF分词,然后输出分词结果;步骤F12:将待切分句子进行词典匹配歧义判断,判断是否存在歧义,如果存在歧义则将待切分句子进行CRF分词,然后输出分词结果;如果不存在歧义则直接输出计算分词结果;步骤F13:资金通知进行证据分词,并统计通知中的词在证据通知中出现的次数,计算得出词频得分A;步骤F14:对问题分词构建通知词的2-gram表达式,并统计2-gram表达式与证据匹配的次数,计算得出词序得分B;步骤F15:将向量化表示问题和证据分为两个部分,一个部分是证据向量和主向量的集合,通过PageRank算法计算证据权重W以及计算证据问题相关度,再加上另一个部分问题主向量通过计算问题相关度,计算得出语义得分C;步骤F16:根据输出的分词结果统计每个词得分排名,选取前N个得分较高的词来作为词向量的表示;步骤F17:对每个项目申报数据进行分词得出词向量,将每个词向量作为神经网络的出入进行训练,把SVM分类算法原有的一维点X映射到三维(Xi,X,C)中,原有的预测模型为:式中f(x)为分类函数,W为权重,T为转置,b为截距,<Xi,X>为向量Xi和向量X的内积,此时将X换为H(X),那么得到新的预测模型:步骤F18:进而使用预测模型对文本进行分类预测。进一步地,为了更好的实现本专利技术,所述步骤F2具体包括以下步骤:步骤F21:用值在(0,1)之间的随机数初始化隶属矩阵U,加上归一化规定,一个数据集的隶属度的和总是等于1,使其满足下式的约束条件:式中i为类别,j为样本,i=1,...,c,j=1,...,n,Uij为隶属度;步骤F22:那么FCM的目标函数就是式(1)的一般化形式:式中J为U的目标函数,Uij介于(0,1)之间,ci为模糊组i的聚类中心,dij=||ci-xj||为第i个聚类中心与第j个向量点之间的欧几里得距离,且是一个加权指数,xj为第j个向量,m为加权指数,d为终止误差;步骤F23:构造新的目标函数如下式所示,可求得使(2)式达到最小值的必要条件:式中λj(j=1,...,n)为(1)式的第j个约束式的拉格朗日乘子;对所有向量参数求导,得到使(2)式达到最小值的必要条件:和k为实数,k=1,...,c,根据(4)式可得到ci和隶属矩阵U的值;步骤F24:根据(2)式计算得出目标函数,如果目标函数小于某个确定的阀值,或相对上一次的目标函数值的改变量小于某个阀值,然后停止算法;若不小于,则返回步骤F12更新隶属度矩阵继续计算。进一步地,为了更好的实现本专利技术,所述步骤F3具体包括以下步骤:步骤F31:在信息服务平台中,根据用户的地区为其推荐政策性信息;步骤F32:在信息服务平台中,对应用户的行业为其推荐政策性信息。进一步地,为了更好的实现本专利技术,所述步骤F4具体包括以下步骤:步骤F41:在信息服务平台中,用户可以收藏感兴趣的政策性信息;步骤F42:根据用户收藏的政策性信息,找出与其相关的政策性信息推荐给客户。进一步地,为了更好的实现本专利技术,:所述步骤F5具体包括以下步骤:步骤F51:在信息服务平台中,过滤协同算法的应用需要依靠前期的数据积累,基于用户的协同过滤算法需要收集每一个用户感兴趣的政策性信息,然后计算用户如果喜欢某个政策性信息那么也会喜欢另一个政策性信息,即为用户推荐相应的政策性信息;步骤F52:基于政策性信息内容的过滤协同算法需要收集每一个政策性信息的相似度进行排名,以及收集用户对每一个政策性信息的热度进行排名,然后将相似度较高和热度较高的推荐给用户。工作原理:1.首先通过CRF词典分词对词频A、词序B、词义C进行评分打分,SVM算法对云平台数据进行申报项目的提取和汇聚。2.通过向量空间模型清洗重复相似的申报项目。3.通过模糊C均值FCM聚类算法和多种典型算法对申报项目进行聚类分类和分析。4.以信息服务平台能够呈现的方式分享推荐给用户。本专利技术与现有技术相比,具有以下优点及有益效果:(1)本专利技术通过CRF词典分词对词频A、词序B、词义C进行评分统计,SVM算法对云平台数据进行申报项目的提取和汇聚,通过向量空间模型清洗重复相似的申报项目;(2)本专利技术通过多种典型算法将申报项目以能够在信息服务平台中呈现的方式共享给用户。附图说明图1为本专利技术中CRF分词特征提流程图;图2为本专利技术中分离超平面示意图;图3为本专利技术中CRF典型词典分词预测流程图;图4为本专利技术中目标函数计算流程图;图5为本专利技术中词频评分流程图;本文档来自技高网...

【技术保护点】
1.一种基于云平台的数据汇聚、分析、挖掘与共享方法,其特征在于:首先通过CRF词典分词预测,利用SVM算法对云平台数据进行项目申报提取和汇聚,通过向量空间模型清洗重复相似的申报项目;通过模糊C均值FCM聚类算法和多种典型算法对申报项目进行聚类分类和分析,然后以信息服务平台能够呈现的方式分享推荐给用户。

【技术特征摘要】
1.一种基于云平台的数据汇聚、分析、挖掘与共享方法,其特征在于:首先通过CRF词典分词预测,利用SVM算法对云平台数据进行项目申报提取和汇聚,通过向量空间模型清洗重复相似的申报项目;通过模糊C均值FCM聚类算法和多种典型算法对申报项目进行聚类分类和分析,然后以信息服务平台能够呈现的方式分享推荐给用户。2.根据权利要求1所述的一种基于云平台的数据汇聚、分析、挖掘与共享方法,其特征在于:所述模糊C均值FCM聚类算法是基于C均值算法和FCM聚类算法并用隶属度确定每个向量数据点属于某个聚类程度,对项目申报数据进行聚类分类和分析;能够对申报项目进行分类和分析后以信息服务平台能够呈现的方式分享给用户的所述多种典型的算法包括静态数据推荐法、基于内容推荐法以及协同过滤算法;具体包括以下步骤:步骤F1:利用CRF词典分词算法对通知数据进行词频、词序以及语义的分词语料训练和分词预测,通过SVM算法对云平台数据进行项目申报提取和汇聚;向量空间模型将项目申报数据转换为向量的形式,并清洗重复相似的申报项目;步骤F2:依据FCM把n个向量xi(i=1,...,c)分为c个模糊组并求每组的聚类中心,使得非相似性指标的目标函数达到最小的原理,对项目申报数据进行分类和分析并在信息服务平台中呈现出来;步骤F3:所述静态数据推荐法是在信息服务平台中,利用用户的地区、行业等静态数据进行相应的政策性信息推荐;步骤F4:所述基于内容推荐法是在信息服务平台中,根据用户收藏的政策性信息找出与其相关的政策性信息推荐给用户;步骤F5:所述协同过滤算法是在信息服务平台中,依靠静态数据推荐法和基于内容推荐法积累的数据进行排名和共享。3.根据权利要求2所述的一种基于云平台的数据汇聚、分析、挖掘与共享方法,其特征在于:所述步骤F1具体包括以下步骤:步骤F11:将训练语料按字切分为Word2vec字向量训练特征和Brown聚类特征,并分别对Word2vec字向量训练特征进行K-Means聚类特征提取和Brown聚类特征进行提取,存放入训练CRF分词模型中进行CRF分词,然后输出分词结果;步骤F12:将待切分句子进行词典匹配歧义判断,判断是否存在歧义,如果存在歧义则将待切分句子进行CRF分词,然后输出分词结果;如果不存在歧义则直接输出计算分词结果;步骤F13:资金通知进行证据分词,并统计通知中的词在证据通知中出现的次数,计算得出词频得分A;步骤F14:对问题分词构建通知词的2-gram表达式,并统计2-gram表达式与证据匹配的次数,计算得出词序得分B;步骤F15:将向量化表示问题和证据分为两个部分,一个部分是证据向量和主向量的集合,通过PageRank算法计算证据权重W以及计算证据问题相关度,再加上另一个部分问题主向量通过计算问题相关度,计算得出语义得分C;步骤F16:根据输出的分词结果统计每个词得分排名,选取前N个得分较高的词来作为词向量...

【专利技术属性】
技术研发人员:涂小东李凯周焕来陈伟
申请(专利权)人:四川政资汇智能科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1