海量数据提取推送工作方法技术

技术编号：20075081 阅读：29 留言：0更新日期：2019-01-15 00:38

本发明专利技术提出了一种海量数据提取推送工作方法，包括如下步骤：获取网络敏感词，进入平台之后，敏感词发送信息搜索请求，对具有相似度的信息进行聚类整合形成聚类算法目标函数，通过推荐信息筛选之后获得筛选后的集成信息，通过敏感词所处的信息接口进行信息推送。

Method of Massive Data Extraction and Pushing

The invention provides a method for extracting and pushing massive data, which includes the following steps: acquiring network sensitive words, sending information search requests after entering the platform, clustering and integrating information with similarity to form clustering algorithm objective function, obtaining filtered integrated information through recommendation information screening, and performing through the information interface where sensitive words are located. Information push.

全部详细技术资料下载

【技术实现步骤摘要】
海量数据提取推送工作方法
本专利技术涉及计算机数据挖掘领域，尤其涉及一种海量数据提取推送工作方法。
技术介绍
由于互联网越来越普及，使用者在进行网络浏览或者网络搜索过程中都需要对自己的言行进行约束，避免不良信息进行传播造成负面影响，尤其对于未成年人或者思想偏执的人群需要进行网络信息屏蔽，将敏感信息进行提炼，但是现有的做法都是通过简单的数据归类整理进行数据挖掘，不能准确和全面的将敏感词提炼得到，这就亟需本领域技术人员解决相应的技术问题。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种海量数据提取推送工作方法。为了实现本专利技术的上述目的，本专利技术提供了一种海量数据提取推送工作方法，包括如下步骤：S1，获取网络敏感词，通过如下公式进行敏感词聚类计算，通过高斯混合模型的敏感词聚类算法计算聚类因子qs的推荐概率Q(qs＝h|i,j,k)，h为检索信息类别，i、j、k为敏感词检索信息元素，i＞j且i+j＝k，实现条件聚类函数的构建，利用推荐概率公式进行计算敏感词聚类信息：其中，上标T分别为(xi-αi)和(yj-αj)的转置，ui为敏感词检索信息元素i作为样本特征的均值，vj为敏感词检索信息元素j作为样本特征的均值，xi为敏感词检索信息元素i的示例，yj为敏感词检索信息元素j的示例，αi为敏感词检索信息元素i的隐含变量，αj为敏感词检索信息元素j的隐含变量；E(Qi(k)||Qj(k))为云端服务器构造的关联特征数据集，Qi(k)为总体检索信息k中敏感词检索信息元素i的数据集，Qj(k)为总体检索信息k中敏感词检索信息元素j的数据集...

【技术保护点】
1.一种海量数据提取推送工作方法，其特征在于，包括如下步骤：S1，获取网络敏感词，通过如下公式进行敏感词聚类计算，通过高斯混合模型的敏感词聚类算法计算聚类因子qs的推荐概率Q(qs＝h|i,j,k)，h为检索信息类别，i、j、k为敏感词检索信息元素，i＞j且i+j＝k，实现条件聚类函数的构建，利用推荐概率公式进行计算敏感词聚类信息：

【技术特征摘要】
1.一种海量数据提取推送工作方法，其特征在于，包括如下步骤：S1，获取网络敏感词，通过如下公式进行敏感词聚类计算，通过高斯混合模型的敏感词聚类算法计算聚类因子qs的推荐概率Q(qs＝h|i,j,k)，h为检索信息类别，i、j、k为敏感词检索信息元素，i＞j且i+j＝k，实现条件聚类函数的构建，利用推荐概率公式进行计算敏感词聚类信息：其中，上标T分别为(xi-αi)和(yj-αj)的转置，ui为敏感词检索信息元素i作为样本特征的均值，vj为敏感词检索信息元素j作为样本特征的均值，xi为敏感词检索信息元素i的示例，yj为敏感词检索信息元素j的示例，αi为敏感词检索信息元素i的隐含变量，αj为敏感词检索信息元素j的隐含变量；E(Qi(k)||Qj(k))为云端服务器构造的关联特征数据集，Qi(k)为总体检索信息k中敏感词检索信息元素i的数据集，Qj(k)为总体检索信息k中敏感词检索信息元素j的数据集，λi,j为敏感词检索信息元素i和j的后验概率，m、n为正整数；其中马氏距离计算公式中M为xi,yj的协方差矩阵，为敏感词检索信息元素i示例的特征向量，为敏感词检索信息元素j示例的特征向量，Φi为敏感词检索信息元素i的类别判断比率，Φj为敏感词检索信息元素j的类别判断比率；S2，通过推荐信息筛选之后获得筛选后的集成信息...

【专利技术属性】
技术研发人员：刘玉蓉，
申请(专利权)人：重庆市智权之路科技有限公司，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人