海量数据提取推送工作方法技术

技术编号:20075081 阅读:29 留言:0更新日期:2019-01-15 00:38
本发明专利技术提出了一种海量数据提取推送工作方法,包括如下步骤:获取网络敏感词,进入平台之后,敏感词发送信息搜索请求,对具有相似度的信息进行聚类整合形成聚类算法目标函数,通过推荐信息筛选之后获得筛选后的集成信息,通过敏感词所处的信息接口进行信息推送。

Method of Massive Data Extraction and Pushing

The invention provides a method for extracting and pushing massive data, which includes the following steps: acquiring network sensitive words, sending information search requests after entering the platform, clustering and integrating information with similarity to form clustering algorithm objective function, obtaining filtered integrated information through recommendation information screening, and performing through the information interface where sensitive words are located. Information push.

【技术实现步骤摘要】
海量数据提取推送工作方法
本专利技术涉及计算机数据挖掘领域,尤其涉及一种海量数据提取推送工作方法。
技术介绍
由于互联网越来越普及,使用者在进行网络浏览或者网络搜索过程中都需要对自己的言行进行约束,避免不良信息进行传播造成负面影响,尤其对于未成年人或者思想偏执的人群需要进行网络信息屏蔽,将敏感信息进行提炼,但是现有的做法都是通过简单的数据归类整理进行数据挖掘,不能准确和全面的将敏感词提炼得到,这就亟需本领域技术人员解决相应的技术问题。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种海量数据提取推送工作方法。为了实现本专利技术的上述目的,本专利技术提供了一种海量数据提取推送工作方法,包括如下步骤:S1,获取网络敏感词,通过如下公式进行敏感词聚类计算,通过高斯混合模型的敏感词聚类算法计算聚类因子qs的推荐概率Q(qs=h|i,j,k),h为检索信息类别,i、j、k为敏感词检索信息元素,i>j且i+j=k,实现条件聚类函数的构建,利用推荐概率公式进行计算敏感词聚类信息:其中,上标T分别为(xi-αi)和(yj-αj)的转置,ui为敏感词检索信息元素i作为样本特征的均值,vj为敏感词检索信息元素j作为样本特征的均值,xi为敏感词检索信息元素i的示例,yj为敏感词检索信息元素j的示例,αi为敏感词检索信息元素i的隐含变量,αj为敏感词检索信息元素j的隐含变量;E(Qi(k)||Qj(k))为云端服务器构造的关联特征数据集,Qi(k)为总体检索信息k中敏感词检索信息元素i的数据集,Qj(k)为总体检索信息k中敏感词检索信息元素j的数据集,λi,j为敏感词检索信息元素i和j的后验概率,m、n为正整数;其中马氏距离计算公式中M为xi,yj的协方差矩阵,为敏感词检索信息元素i示例的特征向量,为敏感词检索信息元素j示例的特征向量,Φi为敏感词检索信息元素i的类别判断比率,Φj为敏感词检索信息元素j的类别判断比率;S2,通过推荐信息筛选之后获得筛选后的集成信息,通过如下公式进行筛选计算,获得准确的敏感词推送信息,在敏感词检索信息元素中形成准确率和召回率,其推荐算法定义为:其中,p为推荐信息的总分类数,则先验准确率为H(Ar,Br)=z'r/zr,其中Ar为第一推荐数据组,Br为第二推荐数据组,Cr为第三推荐数据组和Dr为第四推荐数据组,zr为Ar第一推荐数据组和Br第二推荐数据组中总的检索信息聚类数,z'r为Ar第一推荐数据组和Br第二推荐数据组中经过筛选的聚类数,后验准确率为H(Cr,Dr)=g'r/gr,其中gr为Cr第三推荐数据组和Dr第四推荐数据组中总的检索信息聚类数,g'r为Cr第三推荐数据组和Dr第四推荐数据组中经过筛选的聚类数,先验召回率为I(Ar,Br)=fr'/fr,其中fr为Ar第一推荐数据组和Br第二推荐数据组中总的检索信息召回数,fr'为Ar第一推荐数据组和Br第二推荐数据组中经过筛选的召回数,后验召回率为H(Cr,Dr)=w'r/wr,其中wr为Cr第三推荐数据组和Dr第四推荐数据组中总的检索信息召回数,w'r为Cr第三推荐数据组和Dr第二四推荐数据组中经过筛选的召回数。优选的,经过计算之后形成信息推送的评分值,根据形成的检索信息目标函数的权重,设置敏感词需要获取检索数据的推荐阈值。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:通过归类整理相应敏感词的需求,从而提取出具有针对性的特征数据,从而推送给该需求的敏感词,通过收集模型归类的数据能够准确的获取不同敏感词的不同信息需求,然后通过推送模块进行定点推送以及准确发表相应敏感词的需求信息,帮助敏感词获取准确信息,经过归类模型筛选之后的数据具有极强的鲁棒性,对于推送平台提供了良好的参考作用。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1是本专利技术方法流程图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。如图1所示,一种海量数据提取推送工作方法,包括如下步骤:S1,获取网络敏感词,通过如下公式进行敏感词聚类计算,通过高斯混合模型的敏感词聚类算法计算聚类因子qs的推荐概率Q(qs=h|i,j,k),h为检索信息类别,i、j、k为敏感词检索信息元素,i>j且i+j=k,实现条件聚类函数的构建,利用推荐概率公式进行计算敏感词聚类信息:其中,上标T分别为(xi-αi)和(yj-αj)的转置,ui为敏感词检索信息元素i作为样本特征的均值,vj为敏感词检索信息元素j作为样本特征的均值,xi为敏感词检索信息元素i的示例,yj为敏感词检索信息元素j的示例,αi为敏感词检索信息元素i的隐含变量,αj为敏感词检索信息元素j的隐含变量;E(Qi(k)||Qj(k))为云端服务器构造的关联特征数据集,Qi(k)为总体检索信息k中敏感词检索信息元素i的数据集,Qj(k)为总体检索信息k中敏感词检索信息元素j的数据集,λi,j为敏感词检索信息元素i和j的后验概率,m、n为正整数;其中马氏距离计算公式中M为xi,yj的协方差矩阵,为敏感词检索信息元素i示例的特征向量,为敏感词检索信息元素j示例的特征向量,Φi为敏感词检索信息元素i的类别判断比率,Φj为敏感词检索信息元素j的类别判断比率;S2,通过推荐信息筛选之后获得筛选后的集成信息,通过如下公式进行筛选计算,获得准确的敏感词推送信息,在敏感词检索信息元素中形成准确率和召回率,其推荐算法定义为:其中,p为推荐信息的总分类数,则先验准确率为H(Ar,Br)=z'r/zr,其中Ar为第一推荐数据组,Br为第二推荐数据组,Cr为第三推荐数据组和Dr为第四推荐数据组,zr为Ar第一推荐数据组和Br第二推荐数据组中总的检索信息聚类数,z'r为Ar第一推荐数据组和Br第二推荐数据组中经过筛选的聚类数,后验准确率为H(Cr,Dr)=g'r/gr,其中gr为Cr第三推荐数据组和Dr第四推荐数据组中总的检索信息聚类数,g'r为Cr第三推荐数据组和Dr第四推荐数据组中经过筛选的聚类数,先验召回率为I(Ar,Br)=fr'/fr,其中fr为Ar第一推荐数据组和Br第二推荐数据组中总的检索信息召回数,fr'为Ar第一推荐数据组和Br第二推荐数据组中经过筛选的召回数,后验召回率为H(Cr,Dr)=w'r/wr,其中wr为Cr第三推荐数据组和Dr第四推荐数据组中总的检索信息召回数,w'r为Cr第三推荐数据组和Dr第二四推荐数据组中经过筛选的召回数。优选的,经过计算之后形成信息推送的评分值,根据形成的检索信息目标函数的权重,设置敏感词需要获取检索数据的推荐阈值。敏感词发出检索信息元素通过推荐算法选择操作,根据预设的云端服务器数据库中是否存储有所获取的检索信息,若确定所述数据库中存储有所述检索信息,则从所述数据库中提取与所述检索信息所对应的应用程序或者执行程序;以及从所述应用程序或者执行程本文档来自技高网...

【技术保护点】
1.一种海量数据提取推送工作方法,其特征在于,包括如下步骤:S1,获取网络敏感词,通过如下公式进行敏感词聚类计算,通过高斯混合模型的敏感词聚类算法计算聚类因子qs的推荐概率Q(qs=h|i,j,k),h为检索信息类别,i、j、k为敏感词检索信息元素,i>j且i+j=k,实现条件聚类函数的构建,利用推荐概率公式进行计算敏感词聚类信息:

【技术特征摘要】
1.一种海量数据提取推送工作方法,其特征在于,包括如下步骤:S1,获取网络敏感词,通过如下公式进行敏感词聚类计算,通过高斯混合模型的敏感词聚类算法计算聚类因子qs的推荐概率Q(qs=h|i,j,k),h为检索信息类别,i、j、k为敏感词检索信息元素,i>j且i+j=k,实现条件聚类函数的构建,利用推荐概率公式进行计算敏感词聚类信息:其中,上标T分别为(xi-αi)和(yj-αj)的转置,ui为敏感词检索信息元素i作为样本特征的均值,vj为敏感词检索信息元素j作为样本特征的均值,xi为敏感词检索信息元素i的示例,yj为敏感词检索信息元素j的示例,αi为敏感词检索信息元素i的隐含变量,αj为敏感词检索信息元素j的隐含变量;E(Qi(k)||Qj(k))为云端服务器构造的关联特征数据集,Qi(k)为总体检索信息k中敏感词检索信息元素i的数据集,Qj(k)为总体检索信息k中敏感词检索信息元素j的数据集,λi,j为敏感词检索信息元素i和j的后验概率,m、n为正整数;其中马氏距离计算公式中M为xi,yj的协方差矩阵,为敏感词检索信息元素i示例的特征向量,为敏感词检索信息元素j示例的特征向量,Φi为敏感词检索信息元素i的类别判断比率,Φj为敏感词检索信息元素j的类别判断比率;S2,通过推荐信息筛选之后获得筛选后的集成信息...

【专利技术属性】
技术研发人员:刘玉蓉
申请(专利权)人:重庆市智权之路科技有限公司
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1