一种基于云平台的数据汇聚、分析、挖掘与共享方法技术

技术编号：20045306 阅读：34 留言：0更新日期：2019-01-09 04:17

本发明专利技术公开了一种基于云平台的数据汇聚、分析、挖掘与共享方法，首先通过CRF词典分词预测，利用SVM算法对云平台数据进行项目申报提取和汇聚，通过向量空间模型清洗重复相似的申报项目；通过模糊C均值FCM聚类算法和多种典型算法对申报项目进行聚类分类和分析，然后以信息服务平台能够呈现的方式分享推荐给用户。本发明专利技术本发明专利技术通过CRF词典分词对词频A、词序B、词义C进行评分统计，SVM算法对云平台数据进行申报项目的提取和汇聚，通过向量空间模型清洗重复相似的申报项目；通过多种典型算法将申报项目以能够在信息服务平台中呈现的方式共享给用户。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于云平台的数据汇聚、分析、挖掘与共享方法
本专利技术涉及申报项目共享
，具体的说，是一种基于云平台的数据汇聚、分析、挖掘与共享方法。
技术介绍
我国政策性信息量膨胀，在网络上对相关政策输入关键字查找时并不会完善，并且在收藏和申报项目时手续繁琐，本专利技术基于云平台利用各种算法对分词的计算得到申报项目数据的提取、挖掘以及汇聚，并且经过分类和分析后以能够在信息服务平台上将数据呈现出来的方式共享给用户。
技术实现思路
本专利技术的目的在于提供一种基于云平台的数据汇聚、分析、挖掘与共享方法，利用CRF词典分词、向量空间模型和SVM算法对申报项目进行挖掘提取、以及对词频A、词序B、词义C进行评分打分，通过C均值FCM聚类算法对数据进行分类和分析，最后通过多种典型算法在信息服务平台上将数据共享给用户。本专利技术通过下述技术方案实现：一种基于云平台的数据汇聚、分析、挖掘与共享方法，首先通过CRF词典分词预测，利用SVM算法对云平台数据进行项目申报提取和汇聚，通过向量空间模型清洗重复相似的申报项目；通过模糊C均值FCM聚类算法和多种典型算法对申报项目进行聚类分类和分析，然后以信息服务平台能够呈现的方式分享推荐给用户。进一步地，为了更好的实现本专利技术，所述模糊C均值FCM聚类算法是基于C均值算法和FCM聚类算法并用隶属度确定每个向量数据点属于某个聚类程度，对项目申报数据进行聚类分类和分析；能够对申报项目进行分类和分析后以信息服务平台能够呈现的方式分享给用户的所述多种典型的算法包括静态数据推荐法、基于内容推荐法以及协同过滤算法；具体包括以下步骤：步骤F1：利用CRF...

【技术保护点】
1.一种基于云平台的数据汇聚、分析、挖掘与共享方法，其特征在于：首先通过CRF词典分词预测，利用SVM算法对云平台数据进行项目申报提取和汇聚，通过向量空间模型清洗重复相似的申报项目；通过模糊C均值FCM聚类算法和多种典型算法对申报项目进行聚类分类和分析，然后以信息服务平台能够呈现的方式分享推荐给用户。

【技术特征摘要】
1.一种基于云平台的数据汇聚、分析、挖掘与共享方法，其特征在于：首先通过CRF词典分词预测，利用SVM算法对云平台数据进行项目申报提取和汇聚，通过向量空间模型清洗重复相似的申报项目；通过模糊C均值FCM聚类算法和多种典型算法对申报项目进行聚类分类和分析，然后以信息服务平台能够呈现的方式分享推荐给用户。2.根据权利要求1所述的一种基于云平台的数据汇聚、分析、挖掘与共享方法，其特征在于：所述模糊C均值FCM聚类算法是基于C均值算法和FCM聚类算法并用隶属度确定每个向量数据点属于某个聚类程度，对项目申报数据进行聚类分类和分析；能够对申报项目进行分类和分析后以信息服务平台能够呈现的方式分享给用户的所述多种典型的算法包括静态数据推荐法、基于内容推荐法以及协同过滤算法；具体包括以下步骤：步骤F1：利用CRF词典分词算法对通知数据进行词频、词序以及语义的分词语料训练和分词预测，通过SVM算法对云平台数据进行项目申报提取和汇聚；向量空间模型将项目申报数据转换为向量的形式，并清洗重复相似的申报项目；步骤F2：依据FCM把n个向量xi(i＝1,...,c)分为c个模糊组并求每组的聚类中心，使得非相似性指标的目标函数达到最小的原理，对项目申报数据进行分类和分析并在信息服务平台中呈现出来；步骤F3：所述静态数据推荐法是在信息服务平台中，利用用户的地区、行业等静态数据进行相应的政策性信息推荐；步骤F4：所述基于内容推荐法是在信息服务平台中，根据用户收藏的政策性信息找出与其相关的政策性信息推荐给用户；步骤F5：所述协同过滤算法是在信息服务平台中，依靠静态数据推荐法和基于内容推荐法积累的数据进行排名和共享。3.根据权利要求2所述的一种基于云平台的数据汇聚、分析、挖掘与共享方法，其特征在于：所述步骤F1具体包括以下步骤：步骤F11：将训练语料按字切分为Word2vec字向量训练特征和Brown聚类特征，并分别对Word2vec字向量训练特征进行K-Means聚类特征提取和Brown聚类特征进行提取，存放入训练CRF分词模型中进行CRF分词，然后输出分词结果；步骤F12：将待切分句子进行词典匹配歧义判断，判断是否存在歧义，如果存在歧义则将待切分句子进行CRF分词，然后输出分词结果；如果不存在歧义则直接输出计算分词结果；步骤F13：资金通知进行证据分词，并统计通知中的词在证据通知中出现的次数，计算得出词频得分A；步骤F14：对问题分词构建通知词的2-gram表达式，并统计2-gram表达式与证据匹配的次数，计算得出词序得分B；步骤F15：将向量化表示问题和证据分为两个部分，一个部分是证据向量和主向量的集合，通过PageRank算法计算证据权重W以及计算证据问题相关度，再加上另一个部分问题主向量通过计算问题相关度，计算得出语义得分C；步骤F16：根据输出的分词结果统计每个词得分排名，选取前N个得分较高的词来作为词向量...

【专利技术属性】
技术研发人员：涂小东，李凯，周焕来，陈伟，
申请(专利权)人：四川政资汇智能科技有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人