无监督学习统一特征提取器构建方法技术

技术编号：18496985 阅读：87 留言：0更新日期：2018-07-21 20:07

本申请提供一种无监督学习统一特征提取器构建方法，其特征在于：从服务器端获取实际新闻文本数据生成新闻特征训练数据集；将新闻特征训练数据集中的数据进行处理并向量化得到新闻特征训练向量集；将新闻数据集按照用户访问数据进行归类，形成用户特征训练数据集；构建一个有多个隐层的栈式非对称降噪收缩自编码器，使用特定的目标函数对深度自编码器进行训练；在深度自编码器完成训练后，删除解码器部分，加入一个二值化生成层，构建完成无监督学习统一特征提取器。本申请提供的无监督学习统一特征提取器，可以实现新闻特征和用户特征的统一、基于内容推荐和协同过滤推荐的统一，并提高了实时推荐的效率。

Unsupervised learning unified feature extractor construction method

This application provides an unsupervised learning unified feature extractor construction method, which is characterized in that the news feature training data set is generated from the actual news text data from the server side; the data of the news feature training data set are processed and the news feature training vector sets are obtained to the quantized information; the news dataset is based on the data set. User access data are classified, and user feature training data sets are formed; a multi hidden layer unsymmetrical noise reduction self encoder is constructed, and a specific target function is used to train the depth self encoder; after the depth self encoder is completed, the decoder part is deleted and a two value generation layer is added. A unified feature extractor for unsupervised learning is constructed. The unsupervised learning unified feature extractor provided by this application can achieve unity between news features and user features, recommendation based on content and recommendation of collaborative filtering, and improve the efficiency of real-time recommendation.

全部详细技术资料下载

【技术实现步骤摘要】
无监督学习统一特征提取器构建方法
本专利技术属于人工智能领域，具体地涉及一种无监督学习统一特征提取器构建方法。
技术介绍
当前的推荐系统或推荐引擎一般分为基于内容的推荐、协同过滤推荐、混合推荐等类型，是当今社会中与搜索引擎同等重要的信息化工具，在电子商务、媒体推荐等领域得到广泛应用。当前热门的协同过滤方法主要基于共性，即通过某用户对商品或媒体内容(可以统称为“物品”)的评分来计算出用户间的相似度、物品间的相似度，然后根据与该用户兴趣类似的其他用户的评分来推断其对新物品的评分、或根据与其曾感兴趣的物品的相似度来预测对新物品的评分，因此又被称为评分预测，但其缺点是个性化不足、在评分数据不足的情况下预测困难。基于内容的推荐主要是对某用户的偏好建模、对物品的属性进行建模，根据用户的偏好、爱好来进行推荐，个性化较强，但用户偏好、物品属性的建模和匹配是难点。过去的用户偏好建模需要使用人口统计学等直接特征，也容易侵犯人的隐私。深度学习是近年来兴起的新型机器学习方法，可以分为有监督学习和无监督学习。自编码器(AutoEncoder，AE)是无监督学习当前的一个研究前沿，但目前的大部分的深度自编码系统各有优劣，存在容易过拟合等缺点、大部分还没实现完全意义上的无监督学习，大大制约了其能力的发挥。在当前人工智能、深度学习、无监督学习等技术快速发展的情况下，需要研究使用新技术、新方法来对推荐系统的技术基础进行更新，有效实现混合推荐，大力提升在线推荐效率。
技术实现思路
针对当前融合媒体新闻推荐等应用中个性化不足、用户特征提取困难、将不同方法统一起来形成有效的混合推荐方法较为困难、用户...

【技术保护点】
1.一种无监督学习统一特征提取器构建方法，其特征在于，所述构建方法包括以下步骤：S1、从服务器端获取实际新闻文本数据和用户访问数据，经过整理和随机化处理后生成新闻特征训练数据集；S2、使用当前的中文分词工具，将新闻特征训练数据集中的数据进行预处理，得到预处理后的新闻特征训练数据集；S3、将预处理后的新闻特征训练数据集，通过TF‑IDF方法得到新闻特征训练向量集；S4、将新闻特征训练向量集按照用户访问数据进行归类，形成用户特征训练数据集；S5、构建一个有多个隐层的栈式非对称降噪收缩自编码器，使用JSA‑CDAE作为目标函数：

【技术特征摘要】
1.一种无监督学习统一特征提取器构建方法，其特征在于，所述构建方法包括以下步骤：S1、从服务器端获取实际新闻文本数据和用户访问数据，经过整理和随机化处理后生成新闻特征训练数据集；S2、使用当前的中文分词工具，将新闻特征训练数据集中的数据进行预处理，得到预处理后的新闻特征训练数据集；S3、将预处理后的新闻特征训练数据集，通过TF-IDF方法得到新闻特征训练向量集；S4、将新闻特征训练向量集按照用户访问数据进行归类，形成用户特征训练数据集；S5、构建一个有多个隐层的栈式非对称降噪收缩自编码器，使用JSA-CDAE作为目标函数：其中，其中kσ为高斯核，标准差σ取1.0，高斯核函数为：其中，x表示编码器的输入，fθ()表示编码器的输出，gθ()表示解码器输出；LMC()表示单个输入的代价函数，λ是收缩自编码器的正则化参数，||||F是F范数符号,J(x)是编码器Jacobian矩阵，θ是深度自编码器的参数集，xi表示一次训练中编码器的输入，表示解码器还原的输出，t代表训练集，z代表高斯核中的代数式；S6、训练深度自编码器，训练步骤如下：S61、将所述新闻特征训练向量集作为所述深度自编码器的训练数据；S62、在所述训练数据中加入高斯白噪声，生成带噪声的输入数据；S63、将所述带噪声的输入数据作为所述深度自编码器的输入，训练时采用批量梯度下降法，先进行无监督逐层预训练，得到各隐层的初始参数，以及输出层的输出数据；S64、在目标函数中对输入的训练数据和输出数据来进行比较，实现梯度的反向传播，对各隐层的初始参数进行调整；S65、训练完成后，得到深度自编码器的参数集；S7、去掉深度自编码器的解码器部分，并在最末隐层的输出之后加入二值化生成层，完成无监督学习统一特征提取器的构建。2.根据权利要求1所述的无监督学习统一特征提取器构建方法，其特征在于：所述步骤S1，...

【专利技术属性】
技术研发人员：杨楠，曹三省，
申请(专利权)人：中国传媒大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人