本发明专利技术一种基于词义主题模型的社交网络短文本推荐方法,具体步骤:将词义及下义词信息的基于上下文注意力机制的词表示学习融入社交网络短文本推荐中,以丰富文本的词层面特征;将基于词义表示的狄利克雷多项混合分布短文本主题建模融入社交网络短文本推荐中,以丰富文本层面特征;结合社交网络用户关系,用户相关文本的基于词义表示的短文本主题特征,及用户与文本间的潜在关系特征,对随时间演化的用户潜在兴趣度及倾向度进行建模;通过参数估计方法,预测用户对文本的潜在倾向度,并选取倾向度最大的文本推荐给用户,实现短文本推荐。本发明专利技术将词义信息融入到短文本主题建模及社交网络短文本推荐任务中,提高了社交网络短文本推荐任务的准确率。
A Short Text Recommendation Method for Social Networks Based on Semantic Theme Model
【技术实现步骤摘要】
一种基于词义主题模型的社交网络短文本推荐方法
本专利技术涉及社交网络推荐技术及短文本特征提取
,尤其涉及一种社交网络短文本推荐方法。
技术介绍
推荐领域中,“推荐系统”是一种基于用户历史数据给不同用户推荐不同内容的系统,诸如文章、好友、商品或广告等。因此,系统往往能有效在指数增长的海量数据中提取出对用户有价值的个性化定制的信息。社交网络的推荐系统大多是基于用户的推荐,而同一用户发布的内容也具有多样性,并非每个内容都是用户所关注的,因此基于文本的推荐可以更好的帮用户筛选其关注的信息,从而实现文章推送、广告等文本信息的精准投放。推荐系统实现推荐的常用方法包括:基于人口统计学的推荐:根据系统用户的基本信息发现用户的相关程度,此方法仅考虑了用户基本特征,分类较粗糙;基于内容的推荐:根据推荐内容的属性特征,发现内容的相关性,该方法基于历史喜好进行推荐,对新用户有冷启动问题;协同过滤:根据用户对内容的历史偏好数据,发现内容本身的相关性或发现用户的相关性。相关性发现通常采用基于关联规则挖掘或采用机器学习模型来挖掘关联程度。现有专利及文献在社交网络短文本推荐领域的研究通过用户历史数据生成特征向量,以此为特征获取与目标用户具有相似历史行为的用户群。并基于用户最近发表的短文本特征向量进行短文本推荐。主要考虑了用户发表文本的主题相似度、历史发表行为的相似度来获取用户主题偏好从而进行文本推荐。社交网络由于其具有即时性强、非正式化等特征,其文本的存在形式大多为短文本。如何从短文本中有效提取可用信息是社会网络数据分析及其他类型数据分析必不可少的部分。短文本的主题抽取是获取短文本特征进而进行短文本内容推荐的主要步骤。对于长文本如新闻文本等,因其文本长度较长,更容易提取词频逆词频等词特征,相对容易提取主题特征及标签信息等,从而更容易进行文本推荐。而短文本由于篇幅限制,通常只包含一个主题,特征比较稀疏,并且经常存在一词多义的现象,因此无法用传统的基于词袋的主题模型进行主题抽取。现有专利及文献通过借助外部知识库或长文本来丰富短文本内容,可帮助解决特征稀疏问题,然而外部知识库的引入会增加时间和资源的消耗,外部长文本只有跟短文本主题相符时才能有效扩展短文本内容。丰富短文本词信息的另一个方式就是在词层面丰富词的信息,如引入词义及义原信息。义原是在中文词库HowNet中提出的,用来表示词的基本单位,HowNet知识库中构建了约2000个词的义原体系,并基于该义原体系累计标注了数十万词汇及词义的语义信息。类似的,英文词库WordNet同样表示了词的近义词、上下词义等关系。词义即用来表示词的多个含义,描述词义的词即类似中文的义原,统称为下义词。现有专利及文献将外部词库融入词表示学习,能够有效提升词向量性能,并且在新词推荐、和词典扩展等任务上,均验证了词库的词义特征与深度学习模型融合的有效性。在上述现有技术中,社交网络短文本推荐的文本主题方面未考虑短文本的特有特征,从而造成主题特征稀疏和主题建模不准确的问题,并且在推荐方法中没有综合考虑用户之间的关系特征、用户历史偏好数据、用户之间基于基本特征和社交关系的相关性、及特征值随时间演化等多个指标。同时,还没有相关研究将词义及下义词融入到短文本主题抽取及社交网络短文本推荐任务中。
技术实现思路
为解决上述问题,本专利技术提供一种基于词义主题模型的社交网络短文本推荐方法,以提高短文本推荐的准确度,解决短文本主题抽取困难的问题。为实现上述目标,本专利技术的技术方案是:一种基于词义主题模型的社交网络短文本推荐方法,包括以下过程:(如图2所示)步骤一:将词义及下义词信息的基于上下文注意力机制的词表示学习融入社交网络短文本推荐中,以丰富文本的词层面特征;步骤二:将基于词义表示的狄利克雷多项混合分布短文本主题建模融入社交网络短文本推荐中,以丰富文本层面特征;步骤三:结合社交网络用户关系,用户相关文本的基于词义表示的短文本主题特征,及用户与文本间的潜在关系特征,对随时间演化的用户潜在兴趣度及倾向度进行建模;步骤四:通过参数估计方法,预测用户对文本的潜在倾向度,并选取倾向度最大的文本推荐给用户,实现短文本推荐。步骤一中,基于词义及下义词信息的基于上下文注意力机制的词表示学习构建方法为:对丰富文本词层面特征提出了新的构建词表示学习的方法,对每个目标词融合度量其多个词义、每个词义的下义词的向量表示与上下文对每个词义的注意力权重,对通用文本语料训练多维词向量空间。并对文档中的每个词,采用多个词义向量基于上下文词注意力的加权平均来将词义信息融合到短文本主题建模的词特征中。步骤二中,基于词义表示的狄利克雷多项混合分布短文本主题建模过程如下:a):从狄利克雷分布中取样生成文档集合的主题分布θ~Dirchlet(α);b):对每个主题k,从狄利克雷分布中取样生成主题对应的词语分布c):从主题θi的多项分布中取样生成文档i的主题zi~Multinomial(θ);d):从二项分布中取样生成权重参数hij~Binomial(λ);e):从主题词及词向量分布采样生成文档i的词j其中α和β均为狄利克雷先验分布的参数,λ是二项分布的参数,θ为文档集合的主题分布,为主题对应的词语分布,文档i的主题表示为zi,则为文档i的主题对应的词分布,权重参数hij,文档i的词j分布表示为wi,j。词义词向量空间中每个词wi,j由多个词义向量构成,因此采用不同词义向量基于上下文词注意力的加权平均来将词义信息融合到短文本主题模型的词特征中。吉布斯采样方法被用来训练主题模型中的参数。步骤三中,用户潜在倾向度的计算结合了词表示学习,短文本主题分布、用户的潜在兴趣度等特征。为表示用户潜在兴趣度U,本专利技术融入了时间演化特征,考虑用户兴趣随时间变化的特点,引入影响用户在时刻t的潜在兴趣度的两个因素,其一是在时刻t之前与用户具有联系的文本项,其二是与用户具有社交关系的其他用户对该用户的影响值。对于用户间影响值的表示方法,用户之间的关系对其实际兴趣表现如发布的内容起着至关重要的作用;考虑社交网络中广泛存在的好友关系、单向关注关系、共同关注关系及用户关系强度。通过调整参数来平衡不同因素的权重,从而更准确衡量用户间的社交及交互关系。用户关系强度可通过用户的社交关系类型、用户间交互关系、用户历史行为等指标来衡量。如用户交互关系越频繁、用户历史行为越相似,则其关系强度越大。步骤四中,短文本推荐方法如下:将用户行为集合,如转发和发布文本集合,及用户社交关系集合作为已知变量,通过步骤二和步骤三的方法学习参数主题分布用户潜在偏好值及用户潜在兴趣度采用T+1时刻的用户兴趣度及主题分布的点乘估计作为预测的用户潜在倾向度,用户对文本项的倾向度最大的多个文本则作为该用户的推荐文本。与现有技术相比,本专利技术首次将词义信息融入到短文本主题建模及社交网络短文本推荐任务中,综合考虑社交网络用户社交关系、用户与文本多维关系特征、用户行为的兴趣度及特征随时间演化等指标,从而提高社交网络短文本推荐任务的准确率。附图说明图1是本专利技术构建的社交网络短文本推荐系统结构图图2是本专利技术基于词义主题模型的社交网络短文本推荐方法原理框图图3是本专利技术设计基于词义向量的狄利克雷多项混合分布短文本主题建模的算法框图图4是本专利技术设计本文档来自技高网...
【技术保护点】
1.一种基于词义主题模型的社交网络短文本推荐方法,其特征在于,包括以下过程:步骤一:将词义及下义词信息的基于上下文注意力机制的词表示学习融入社交网络短文本推荐中,以丰富文本的词层面特征;步骤二:将基于词义表示的狄利克雷多项混合分布短文本主题建模融入社交网络短文本推荐中,以丰富文本层面特征;步骤三:结合社交网络用户关系,用户相关文本的基于词义表示的短文本主题特征,及用户与文本间的潜在关系特征,对随时间演化的用户潜在兴趣度及倾向度进行建模;步骤四:通过参数估计方法,预测用户对文本的潜在倾向度,并选取倾向度最大的文本推荐给用户,实现短文本推荐。
【技术特征摘要】
1.一种基于词义主题模型的社交网络短文本推荐方法,其特征在于,包括以下过程:步骤一:将词义及下义词信息的基于上下文注意力机制的词表示学习融入社交网络短文本推荐中,以丰富文本的词层面特征;步骤二:将基于词义表示的狄利克雷多项混合分布短文本主题建模融入社交网络短文本推荐中,以丰富文本层面特征;步骤三:结合社交网络用户关系,用户相关文本的基于词义表示的短文本主题特征,及用户与文本间的潜在关系特征,对随时间演化的用户潜在兴趣度及倾向度进行建模;步骤四:通过参数估计方法,预测用户对文本的潜在倾向度,并选取倾向度最大的文本推荐给用户,实现短文本推荐。2.根据权利要求1所述基于词义主题模型的社交网络短文本推荐方法,其特征在于,步骤一中,基于词义及下义词信息的基于上下文注意力机制的词表示学习构建方法为:对丰富文本词层面特征提出了新的构建词表示学习的方法,对每个目标词融合度量其多个词义、每个词义的下义词的向量表示与上下文对每个词义的注意力权重,对通用文本语料训练多维词向量空间;并对文档中的每个词,采用多个词义向量基于上下文词注意力的加权平均来将词义信息融合到短文本主题建模的词特征中。3.根据权利要求1所述基于词义主题模型的社交网络短文本推荐方法,其特征在于,步骤二中,基于词义表示的狄利克雷多项混合分布短文本主题建模过程如下:a):从狄利克雷分布中取样生成文档集合的主题分布θ~Dirchlet(α);b):对每个主题k,从狄利克雷分布中取样生成主题对应的词语分布c):从主题θi的多项分布中取样生成文档i的主题zi~Multinomial(θ);d):从二项分布中取样生成权重参数hij~Binomial(λ);e):从主题词及词向量分布采样生成文档i的词j其中α和β均为狄利克雷先验分布的参...
【专利技术属性】
技术研发人员:谭成翔,校娅,赵雪延,徐潜,朱文烨,黄超,
申请(专利权)人:同济大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。