一种在神经网络下结合人格特征的跨域推荐方法技术

技术编号:21141199 阅读:15 留言:0更新日期:2019-05-18 05:11
本发明专利技术属于基于大数据的个性化推荐领域,具体说是提出一种在神经网络下结合人格特征的跨域推荐方法。在神经网络下结合人格特征的跨域推荐方法,具体包括:(1)获取数据;(2)筛选用户;(3)提取关键词。(4)搭建神经网络。(5)针对人格特征,给具有相似人格特征的人进行个性化物品推荐。本发明专利技术通过结合人格特征,在神经网络的基础上,利用卷积神经网络CNN搭建神行网络体系,为具有相似人格特征的用户推荐相关物品。由于人格特征是不易改变且容易预测的,因为基于人格特征做个性化推荐能够提高推荐准确度的。

A Cross-domain Recommendation Method Based on Neural Network and Personality Characteristics

【技术实现步骤摘要】
一种在神经网络下结合人格特征的跨域推荐方法
本专利技术属于基于大数据的个性化推荐领域,具体说是提出一种在神经网络下结合人格特征的跨域推荐方法。
技术介绍
个性化推荐在当今大数据时代扮演了越来越重要的角色,如何利用海量数据,对用户行为进行预测,准确的向用户推荐其感兴趣的物品是个性化研究者关注的问题。人格是一种可预测的、相当稳定的因素,能够形成人类行为。其中,5个因素模型被认为是最全面的模型之一,可以引入五种广泛的维度,即所谓的因素和特征,通常被称为“大五”来描述个人的人格:开放性(OPE),责任心(COS),外向性(EXT),亲和性(AGR)和神经质(NEU)。“五大”的测量通常是通过评估“项目”来完成的,这些“项目”是自我描述的句子或形容词,并且通常以简短的问题形式呈现给受试者。神经网络是一个并行和分布式信息处理网络结构,由大量的简单的处理单元(称为神经元)组成,每个神经元有单一的输出,它可以连接到很多其他的神经元,其输入有多个连接通路,每个连接通路会对应一个连接权系数。相互联系的神经元之间传递增强或抑制信号,增强或抑制通过调整相互间联系的权重系数来实现,通过权重系数调节机制使神经网络的输出收敛于正确的目标值。
技术实现思路
针对现有个性化准确性不高、存在冷启动等技术难点问题,本专利技术提出了一种基于人格信息的跨域推荐方法。为实现所述专利技术目的,本专利技术采用以下技术方案:一种基于神经网络结合人格特征推荐方案,我们以微博用户为例,其中包括如下步骤:(1)获取数据;由于微博的授权认证是需要加密的,也就是需要身份认证的,虽然用户不会向微博透露自身的用户名以及密码,但是微博需要确认第三方的身份并提供特定的用户资源访问授权。新浪微博的授权方式是通过OAUTH认证实现的,它提供了一个稳定而安全的认证授权环境。授权完毕后,API根据用户发送的不同请求,会返回特定的文件,通过对相关文件的解析,便可以获得原始数据资源,其中用户自己发布的微博、他的粉丝、他的点赞、他的转发等。(2)筛选用户;由于微博用户中的数据可能存在小号、滞销号等无用号,所以需要提取对实验有意义的数据,就需要进行有效用户数据筛选,因此建立一个基于活跃度和影响力的微博用户权重模型(因为活跃度和影响力越高说明微博数据越有代表性)。我们利用HITS算法,将用户的微博内容类比成一个网页进行解析,粉丝数量,粉丝互动值是影响力,发布数量和时间是活跃度,作为指标建立矩阵,然后迭代收敛,选区符合阈值条件的用户。(3)提取关键词:利用TF-IDF算法获取并计算数据的词条权重,也就是采集关键词词频,关键词词频对于个性化推荐的匹配度是重要的指标(关键词只提取音乐名和食品名相关的内容),这些关键词词频会用于搭建神经网络。TF-IDF实际上是:TF*IDF。主要思想是:如果某个词或短语在一篇文章中出现的频率高(即TF高),并且在其他文章中很少出现(即IDF高),则认为此词或者短语具有很好的类别区分能力,适合用来分类。(4)搭建神经网络;当得到人格特征和用户在音乐和食品方面相关的关键词数据后,就需要构建一个神经网络,本文是利用卷积神经网络(CNN)将人格特征神经网络化,也就是说其中最重要的算法是卷积算法,我们构建的神经网络也是由很多个卷积构成的,构建过程其实也就是数据的训练过程。(5)针对人格特征,给具有相似人格特征的人进行个性化物品推荐。构建的神经网络也是由很多个卷积构成的,构建过程是数据的训练过程:(1)输入层就是将用户数据提取出来的关键词输入;(2)隐含层是重点,把所提取的这些数据带入卷积公式得到具备此类人格特征的用户和这类具备这些关键词的音乐/食品的权重值,权重值就是表示关联度的大小,反复卷积就是下一个用户是在前一个的基础上进行卷积,也就是经过很多次之后得到一个相互关联的神经网(得到相互的关联值),加上偏置和激活函数,如果输出不是最后一层就是继续卷积加权;(3)输出层:直至输出是最后一层,就可以经过前面的计算得到权重值相对较高的输出结果,也就是我们要推荐的最符合的内容。本专利技术的有益效果是:通过结合人格特征,在神经网络的基础上,利用卷积神经网络CNN搭建神行网络体系,为具有相似人格特征的用户推荐相关物品。由于人格特征是不易改变且容易预测的,因为基于人格特征做个性化推荐能够提高推荐准确度的。附图说明图1是本专利技术进行个性化推荐的流程图。具体实施方式为了便于理解本专利技术,核心部分是如何利用人格特征搭建神经网络进行个性化推荐,在理解卷积神经网络CNN后,接下来做详细说明:我们构建的神经网络也是由很多个卷积构成的,构建过程其实也就是数据的训练过程。具体分为三层:(1)输入层就是将用户数据提取出来的关键词输入;(2)隐含层是重点,把所提取的这些数据带入卷积公式得到具备此类人格特征的用户和这类具备这些关键词的音乐/食品的权重值,权重值就是表示关联度的大小,反复卷积就是下一个用户是在前一个的基础上进行卷积,也就是经过很多次之后得到一个相互关联的神经网(得到相互的关联值),加上偏置和激活函数,如果输出不是最后一层就是继续卷积加权。(3)输出层:直至输出是最后一层,就可以经过前面的计算得到权重值相对较高的输出结果,也就是我们要推荐的最符合的内容。隐含层的层数通常不止为一,这对于外界是不可见的。其实,每层所做的操作都是将上一层的输出拿来加权求和,再加上偏置后输入激活函数,激活函数的输出如果不是最后一层的话,那么输出又成为下一层神经元的输入。微博用户的人格特征是神经网络结构中的神经分支,每个用户是神经元,构建出的神经网络系统,个性化推荐系统基于神经网络上,给用户推荐有相关关联度也就是神经元互相连接紧密程度高的内容。一个用户的数据代表一个卷积层,使用权重矩阵加权求和,得到权重二维矩阵卷积核,并加上偏置输入到激活函数中;第二步池化,可以看做是一种特殊的卷积,池化后得到下一层的输入特征;最后将训练样本的所有输出连接起来。这是基本的做法,运用到我们做的结合人格特征的实验中,首先将用户特征和物品域数字化,然后将数字化的信息输入到模型中通过以上步骤能够构建神经网。本专利技术涉及基于大数据的个性化推荐领域,提出一种基于人格信息的跨域推荐关键技术研究方法,适用于个性化推荐中的跨域推荐类型。推荐步骤依次为:(1)获取微博用户数据;(2)利用基于活跃度和影响力的微博用户权重模型将小号、滞销号等过滤掉;(3)利用TF-IDF算法获取并计算数据的词条权重;(4)搭建结合人格特征的神经网络模型(5)给相似人格特征的用户做个性化物品推荐。本专利技术利用微博数据进行抓取、解析和降噪三个过程,对原始的数据进行收集和处理,并且提出了一套微博用户权重计算方法,最终试验结果表明,本专利技术提出的基于神经网络结合人格特性的个性化模型相比传统用户相似度模型,对于预测正确率与查全率等测度均具有显著提升。本文档来自技高网...

【技术保护点】
1.一种在神经网络下结合人格特征的跨域推荐方法,具体步骤如下:(1)获取数据;由于微博的授权认证是需要加密的,也就是需要身份认证的,虽然用户不会向微博透露自身的用户名以及密码,但是微博需要确认第三方的身份并提供特定的用户资源访问授权;新浪微博的授权方式是通过OAUTH认证实现的,它提供了一个稳定而安全的认证授权环境;授权完毕后,API根据用户发送的不同请求,会返回特定的文件,通过对相关文件的解析,便可以获得原始数据资源,其中用户自己发布的微博、他的粉丝、他的点赞、他的转发等;(2)筛选用户;由于微博用户中的数据可能存在小号、滞销号等无用号,所以需要提取对实验有意义的数据,就需要进行有效用户数据筛选,因此建立一个基于活跃度和影响力的微博用户权重模型;我们利用HITS算法,将用户的微博内容类比成一个网页进行解析,粉丝数量,粉丝互动值是影响力,发布数量和时间是活跃度,作为指标建立矩阵,然后迭代收敛,选区符合阈值条件的用户;(3)提取关键词:利用TF‑IDF算法获取并计算数据的词条权重,也就是采集关键词词频,关键词词频对于个性化推荐的匹配度是重要的指标,这些关键词词频会用于搭建神经网络;TF‑IDF实际上是:TF*IDF;主要思想是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类;(4)搭建神经网络;当得到人格特征和用户在音乐和食品方面相关的关键词数据后,就需要构建一个神经网络,本文是利用卷积神经网络将人格特征神经网络化,也就是说其中最重要的算法是卷积算法,我们构建的神经网络也是由很多个卷积构成的,构建过程其实也就是数据的训练过程;(5)针对人格特征,给具有相似人格特征的人进行个性化物品推荐。...

【技术特征摘要】
1.一种在神经网络下结合人格特征的跨域推荐方法,具体步骤如下:(1)获取数据;由于微博的授权认证是需要加密的,也就是需要身份认证的,虽然用户不会向微博透露自身的用户名以及密码,但是微博需要确认第三方的身份并提供特定的用户资源访问授权;新浪微博的授权方式是通过OAUTH认证实现的,它提供了一个稳定而安全的认证授权环境;授权完毕后,API根据用户发送的不同请求,会返回特定的文件,通过对相关文件的解析,便可以获得原始数据资源,其中用户自己发布的微博、他的粉丝、他的点赞、他的转发等;(2)筛选用户;由于微博用户中的数据可能存在小号、滞销号等无用号,所以需要提取对实验有意义的数据,就需要进行有效用户数据筛选,因此建立一个基于活跃度和影响力的微博用户权重模型;我们利用HITS算法,将用户的微博内容类比成一个网页进行解析,粉丝数量,粉丝互动值是影响力,发布数量和时间是活跃度,作为指标建立矩阵,然后迭代收敛,选区符合阈值条件的用户;(3)提取关键词:利用TF-IDF算法获取并计算数据的词条权重,也就是采集关键词词频,关键词词频对于个性化推荐的匹配度是重要的指标,这些关键词词频会用于搭建神经网络;TF-IDF实际上是:TF*IDF;主要思想是:如果某个词或短...

【专利技术属性】
技术研发人员:曲立平刘云鹏
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1