The invention relates to a TV program recommendation technology based on word vectors. The invention solves the problem that the artificial annotation of the program features and the sparsity of the statistical data in the current TV program recommendation algorithm will affect the recommendation effect in different degrees. A TV program recommendation method based on word vector training is proposed. The technical scheme can be summarized as: screening users to watch historical records, with a section. A context corpus is constructed as a lexical unit, and the context corpus is preprocessed; the word vectors corresponding to each program name in the context corpus are obtained by training; the similarity degree of each program is calculated based on the word vector, and the similarity is sorted, and the program is recommended. The beneficial effect of the invention is that on the basis of screening user viewing history records, the intrinsic correlation between user historical data is analyzed with word vector as a tool, and the effect of manual intervention and data sparsity on the recommendation effect is reduced to the greatest extent.
【技术实现步骤摘要】
基于词向量训练的电视节目推荐方法
本专利技术涉及电视节目推荐技术,特别涉及基于词向量训练的电视节目推荐方法的技术。
技术介绍
面对日益增加的电视内容,如何对不同用户进行个性化推荐已经成为智能电视的攻坚方向。目前的主要推荐方法可以分为三类:基于内容推荐、基于协同过滤推荐和基于社会化过滤的推荐。其中以前两种应用最广。节目特征的人工标注、统计数据的稀疏性等均会在不同程度上影响推荐效果。上述三类方法,算法实质都是通过对节目自身特征或用户特征,或两者相结合的方式,通过特征提取或相关性分析等手段实现推荐如何避免过多的人工干预,减少节目分类和特征选取带来的巨大工作量和不确定性。目前主要的推荐算法包括两类,分别是基于内容推荐,基于协同过滤推荐。其中以基于内容推荐和基于协同过滤推荐应用交广。基于内容推荐不与用户直接发生联系,完全依靠项目自身属性构建项目之间的联系。基于协同过滤推荐算法包括基于用户协同(UserCF)和基于物品协同(itemCF)两类,前者是假定如果两个用户过去有共同喜好,那么将来仍然会有相似喜好,后者是假设用户如果过去喜欢某种产品,那么将来他仍然会喜欢与该产品相似的 ...
【技术保护点】
基于词向量训练的电视节目推荐方法,其特征在于,包括以下步骤:步骤1、筛选用户观看历史记录,以节目为词汇单元构建的上下文语料库,并对上下文语料库进行预处理;步骤2、通过训练得到上下文语料库中各个节目名称分别对应的词向量;步骤3、基于词向量计算各个节目的相似度,并将相似度进行排序,筛选出上下文语料库中与用户当前观看节目相似度最高的多个节目,完成节目推荐。
【技术特征摘要】
1.基于词向量训练的电视节目推荐方法,其特征在于,包括以下步骤:步骤1、筛选用户观看历史记录,以节目为词汇单元构建的上下文语料库,并对上下文语料库进行预处理;步骤2、通过训练得到上下文语料库中各个节目名称分别对应的词向量;步骤3、基于词向量计算各个节目的相似度,并将相似度进行排序,筛选出上下文语料库中与用户当前观看节目相似度最高的多个节目,完成节目推荐。2.根据权利要求1所述的基于词向量训练的电视节目推荐方法,其特征在于,步骤1具体包括以下步骤:步骤101、对用户观看历史记录进行处理,剔除观看时长比例较低的数据,以节目为词汇单元构建的上下文语料库;步骤102、基于语料文本统计节目频率,并将观看频率较低的节目剔除;步骤103、基于词频统计构建HuffmanTree。3.根据权利要求2所述的基于词向量训练的电视节目推荐方法,其特征在于,步骤103中,所述HuffmanTree的具体构建方式如下:将所有的节点放到一个队列中,用一个节点替换两个频率最低的节点,新节点的频率就是这两个节点的频率之和,原先的两个节点作为新节点的左右子节点,左节点编码为1,右节点编码为0,这样新节点就是两个被替换节点的父节点,如此循环,直到队列中只剩一个节点,在此基础上生成各个节点对应节目的Huffman编码。4.根据权利要求3所述的基于词向量训练的电视节目推荐方法,其特征在于,步骤2具体包括以下步骤:步骤201、设定词向量维度及上下文词汇数量;步骤202、初始化上下文词向量(x1,x2…xn)及HuffmanTree中各中间节点的词向量(y1,y2…yn),其中n≥2,且n为整数,上下文词向量为随机初始化,而中间节点词向量初始化为0,并将初始化的上下文词向量作为输入层;步骤203、基于初始化的输入层的词向量进行算术求和...
【专利技术属性】
技术研发人员:刘刚,刘鑫,唐军,
申请(专利权)人:四川长虹电器股份有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。