无监督学习统一特征提取器构建方法技术

技术编号:18496985 阅读:87 留言:0更新日期:2018-07-21 20:07
本申请提供一种无监督学习统一特征提取器构建方法,其特征在于:从服务器端获取实际新闻文本数据生成新闻特征训练数据集;将新闻特征训练数据集中的数据进行处理并向量化得到新闻特征训练向量集;将新闻数据集按照用户访问数据进行归类,形成用户特征训练数据集;构建一个有多个隐层的栈式非对称降噪收缩自编码器,使用特定的目标函数对深度自编码器进行训练;在深度自编码器完成训练后,删除解码器部分,加入一个二值化生成层,构建完成无监督学习统一特征提取器。本申请提供的无监督学习统一特征提取器,可以实现新闻特征和用户特征的统一、基于内容推荐和协同过滤推荐的统一,并提高了实时推荐的效率。

Unsupervised learning unified feature extractor construction method

This application provides an unsupervised learning unified feature extractor construction method, which is characterized in that the news feature training data set is generated from the actual news text data from the server side; the data of the news feature training data set are processed and the news feature training vector sets are obtained to the quantized information; the news dataset is based on the data set. User access data are classified, and user feature training data sets are formed; a multi hidden layer unsymmetrical noise reduction self encoder is constructed, and a specific target function is used to train the depth self encoder; after the depth self encoder is completed, the decoder part is deleted and a two value generation layer is added. A unified feature extractor for unsupervised learning is constructed. The unsupervised learning unified feature extractor provided by this application can achieve unity between news features and user features, recommendation based on content and recommendation of collaborative filtering, and improve the efficiency of real-time recommendation.

【技术实现步骤摘要】
无监督学习统一特征提取器构建方法
本专利技术属于人工智能领域,具体地涉及一种无监督学习统一特征提取器构建方法。
技术介绍
当前的推荐系统或推荐引擎一般分为基于内容的推荐、协同过滤推荐、混合推荐等类型,是当今社会中与搜索引擎同等重要的信息化工具,在电子商务、媒体推荐等领域得到广泛应用。当前热门的协同过滤方法主要基于共性,即通过某用户对商品或媒体内容(可以统称为“物品”)的评分来计算出用户间的相似度、物品间的相似度,然后根据与该用户兴趣类似的其他用户的评分来推断其对新物品的评分、或根据与其曾感兴趣的物品的相似度来预测对新物品的评分,因此又被称为评分预测,但其缺点是个性化不足、在评分数据不足的情况下预测困难。基于内容的推荐主要是对某用户的偏好建模、对物品的属性进行建模,根据用户的偏好、爱好来进行推荐,个性化较强,但用户偏好、物品属性的建模和匹配是难点。过去的用户偏好建模需要使用人口统计学等直接特征,也容易侵犯人的隐私。深度学习是近年来兴起的新型机器学习方法,可以分为有监督学习和无监督学习。自编码器(AutoEncoder,AE)是无监督学习当前的一个研究前沿,但目前的大部分的深度自编码系统各有优劣,存在容易过拟合等缺点、大部分还没实现完全意义上的无监督学习,大大制约了其能力的发挥。在当前人工智能、深度学习、无监督学习等技术快速发展的情况下,需要研究使用新技术、新方法来对推荐系统的技术基础进行更新,有效实现混合推荐,大力提升在线推荐效率。
技术实现思路
针对当前融合媒体新闻推荐等应用中个性化不足、用户特征提取困难、将不同方法统一起来形成有效的混合推荐方法较为困难、用户特征提取中隐私侵犯、实时推荐效率有待提高等问题,根据当前的新型的人工智能技术,本申请公开了一种无监督学习统一特征提取器(UnsupervisedLearningUnifiedFeatureExtractor,ULUFE)构建方法,用以提取“基于内容的统一特征表示”(UnifiedRepresentationBasedonContent,URBC)。一种无监督学习统一特征提取器构建方法,包括以下步骤:S1、从服务器端获取实际新闻文本数据和用户访问数据,经过整理和随机化处理后生成新闻特征训练数据集;S2、使用当前的中文分词工具,将新闻特征训练数据集中的数据进行预处理,得到预处理后的新闻特征训练数据集;S3、将预处理后的新闻特征训练数据集,通过TF-IDF方法得到新闻特征训练向量集;S4、将新闻特征训练向量集按照用户访问数据进行归类,形成用户特征训练数据集;S5、构建一个有多个隐层的栈式非对称降噪收缩自编码器,使用JSA-CDAE作为目标函数:其中,其中kσ为高斯核,标准差σ取1.0,高斯核函数为:其中,x表示编码器的输入,fθ()表示编码器的输出,gθ()表示解码器输出;LMC()表示单个输入的代价函数,λ是收缩自编码器的正则化参数,||||F是F范数符号,J(x)是编码器Jacobian矩阵,θ是深度自编码器的参数集,xi表示一次训练中编码器的输入,表示解码器还原的输出,t代表训练集,z代表高斯核中的代数式;S6、训练深度自编码器,训练步骤如下:S61、将所述新闻特征训练向量集作为所述深度自编码器的训练数据;S62、在所述训练数据中加入高斯白噪声,生成带噪声的输入数据;S63、将所述带噪声的输入数据作为所述深度自编码器的输入,训练时采用批量梯度下降法,先进行无监督逐层预训练,得到各隐层的初始参数,以及输出层的输出数据;S64、在目标函数中对输入的训练数据和输出数据来进行比较,实现梯度的反向传播,对各隐层的初始参数进行调整;S65、训练完成后,得到深度自编码器的参数集;S7、删除深度自编码器的解码器部分,并在最末隐层的输出之后加入二值化生成层,完成无监督学习统一特征提取器的构建。优选的,所述步骤S1,从服务器端获取实际新闻文本数据和用户访问数据,经过整理和随机化处理后生成新闻特征训练数据集,具体包括以下步骤:S11、采集服务器上一定时段内的新闻数据和用户访问数据;S12、去除新闻数据中图片和视频,统一编码为UTF-8,为每条新闻设定序号,构成新闻数据集合;S13、将新闻数据集合中的新闻按序号进行随机化重新排序,然后按一定比例分别作为逐层无监督预训练阶段和全局训练阶段的新闻特征训练数据集。优选的,所述步骤S5中构建一个有多个隐层的栈式非对称降噪收缩自编码器,包括2个隐层。优选的,第一隐层的编码函数为h1(xi)=S(w1xi+b1),预训练解码函数为第二隐层的编码函数为h2(h1)=S(w2h1+b2),预训练解码函数为第二隐层到输出层的全局训练解码函数为go(xi)=S(w1xi+b1);各层的初始参数采用[0,1]的随机数,非线性激活函数S()统一使用Sigmoid函数,e是欧拉数,h表示隐层的编码函数,g为解码函数,b代表偏置,x表示编码器的输入,w1、w2分别是第一和第二隐层的权值参数。优选的,所述步骤S7中的二值化生成层维度与深度自编码器最末隐层一样,与最末隐层的各神经元实现一对一的连接;二值化生成层根据最末隐层的输出设置一个权重调节器来实现阈值调整,权重调节器中阈值T的选取使得一次完整训练的输出结果分为两类,且两类的类间方差最大。优选的,还包括S8,将用户特征训练向量集输入到无监督学习统一特征提取器,得到用户偏好模型,根据各个用户的用户偏好模型,通过相似度比较生成一个统一的用户近邻表。本申请的优点是:1.针对网络媒体的快速推荐中有监督学习需要的人工标注数据难以实时获取,而现有深度自编码器的在采用无监督逐层预训练后仍然需要有监督精调的问题,本专利技术中的深度自编码器可以实现全程无监督学习;2.采用深度结构替代单隐层结构,进一步提高了学习内容的高阶潜在解释因子的能力;3.采用编码器与解码器非对称、隐层维度低于输入层维度,可以学习到数据的非线性流型,在提取特征的同时实现降维,优于PCA等线性流型的方法。而且非对称也可以作为解决自编码器容易过拟合问题的一种手段;4.本专利技术中自编码器输出的特征便于进行二值化处理,加入二值化生成层后能够生成二值化特征,使得在推荐中可以分别通过余弦相似度比较、海明距离比较、哈希等方法,解决融合媒体中用户、新闻的快速相似度比较问题,对移动媒体中短新闻的快速推荐作用明显。5.在应用上,从新闻数据中提取的特征(基于内容的统一特征表示)来作为待推荐新闻和用户的特征,实现了两种特征的统一,也实现了基于内容推荐和协同过滤推荐方法的统一,在有效保护用户隐私的同时,实现推荐方法创新、提升了推荐效率。附图说明图1为本专利技术的SA-CDAE设计示意图;图2为本专利技术的训练示意图;图3为本专利技术的无监督学习特征提取器;图4为本专利技术的在线推荐示意图;图5为本专利技术的精确率比较图;图6为本专利技术的召回率比较图。具体实施方式下面对本专利技术的无监督学习统一特征提取器构建方法具体实施方式和详细步骤做进一步的说明:步骤一:数据获取和准备本专利技术主要针对当前融合媒体中的网站文本新闻和手机新闻客户端文本新闻。新闻文本数据和用户访问数据都位于服务器端,本步骤需要生成“新闻特征训练数据集”,具体过程如下:1)采集服务器上一定时段内的新闻数据和用户访问数据,新闻数据包括服务器本文档来自技高网...

【技术保护点】
1.一种无监督学习统一特征提取器构建方法,其特征在于,所述构建方法包括以下步骤:S1、从服务器端获取实际新闻文本数据和用户访问数据,经过整理和随机化处理后生成新闻特征训练数据集;S2、使用当前的中文分词工具,将新闻特征训练数据集中的数据进行预处理,得到预处理后的新闻特征训练数据集;S3、将预处理后的新闻特征训练数据集,通过TF‑IDF方法得到新闻特征训练向量集;S4、将新闻特征训练向量集按照用户访问数据进行归类,形成用户特征训练数据集;S5、构建一个有多个隐层的栈式非对称降噪收缩自编码器,使用JSA‑CDAE作为目标函数:

【技术特征摘要】
1.一种无监督学习统一特征提取器构建方法,其特征在于,所述构建方法包括以下步骤:S1、从服务器端获取实际新闻文本数据和用户访问数据,经过整理和随机化处理后生成新闻特征训练数据集;S2、使用当前的中文分词工具,将新闻特征训练数据集中的数据进行预处理,得到预处理后的新闻特征训练数据集;S3、将预处理后的新闻特征训练数据集,通过TF-IDF方法得到新闻特征训练向量集;S4、将新闻特征训练向量集按照用户访问数据进行归类,形成用户特征训练数据集;S5、构建一个有多个隐层的栈式非对称降噪收缩自编码器,使用JSA-CDAE作为目标函数:其中,其中kσ为高斯核,标准差σ取1.0,高斯核函数为:其中,x表示编码器的输入,fθ()表示编码器的输出,gθ()表示解码器输出;LMC()表示单个输入的代价函数,λ是收缩自编码器的正则化参数,||||F是F范数符号,J(x)是编码器Jacobian矩阵,θ是深度自编码器的参数集,xi表示一次训练中编码器的输入,表示解码器还原的输出,t代表训练集,z代表高斯核中的代数式;S6、训练深度自编码器,训练步骤如下:S61、将所述新闻特征训练向量集作为所述深度自编码器的训练数据;S62、在所述训练数据中加入高斯白噪声,生成带噪声的输入数据;S63、将所述带噪声的输入数据作为所述深度自编码器的输入,训练时采用批量梯度下降法,先进行无监督逐层预训练,得到各隐层的初始参数,以及输出层的输出数据;S64、在目标函数中对输入的训练数据和输出数据来进行比较,实现梯度的反向传播,对各隐层的初始参数进行调整;S65、训练完成后,得到深度自编码器的参数集;S7、去掉深度自编码器的解码器部分,并在最末隐层的输出之后加入二值化生成层,完成无监督学习统一特征提取器的构建。2.根据权利要求1所述的无监督学习统一特征提取器构建方法,其特征在于:所述步骤S1,...

【专利技术属性】
技术研发人员:杨楠曹三省
申请(专利权)人:中国传媒大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1