基于显隐性潜在因子模型的电视产品精准推荐方法及系统技术方案

技术编号:21518113 阅读:40 留言:0更新日期:2019-07-03 10:10
本发明专利技术涉及推荐技术领域,公开基于显隐性潜在因子模型的电视产品精准推荐方法,包括:对电视产品正题名通过正则表达式进行处理,设计爬虫策略,对所需的外部数据进行爬取;根据电视产品和用户人群的不同特征,分别建立针对电视产品和用户的分类模型,从而实现对爬取的外部数据中不同电视产品和用户自动标签标注,得到标注标签后的电视产品信息和标注标签后的用户信息;从而得出显性潜在因子,根据显性潜在因子得出隐性潜在因子,基于显性潜在因子及隐性潜在因子构建显隐性潜在因子模型;基于构建的显隐性潜在因子模型进行电视产品的推荐。本发明专利技术还公开基于显隐性潜在因子模型的电视产品精准推荐系统。本发明专利技术提高了推荐的准确度。

Precise Recommendation Method and System for TV Products Based on Explicit and Implicit Potential Factor Model

【技术实现步骤摘要】
基于显隐性潜在因子模型的电视产品精准推荐方法及系统
本专利技术涉及推荐
,特别涉及基于显隐性潜在因子模型的电视产品精准推荐方法及系统。
技术介绍
随着互联网的快速发展,信息呈现爆炸增长的趋势,每天都有无数的信息涌入千家万户。此形势下的“三网融合”为传统广播电视媒介的发展带来了机遇,广播电视运营商可以从每个用户的历史信息和实时互动信息来获取有用的信息,但从大量信息中找到用户感兴趣的信息是非常困难的。为了解决这一问题,推荐系统通过分析用户的相关数据,包括个人社会属性、浏览日志等,来挖掘用户的喜爱偏好,从而为用户提供个性化的服务。推荐系统的主要作用有:分析用户行为、筛选有用信息、生成个性化推荐等。基于用户行为分析而得到的推荐系统在各种销售、娱乐、生活平台都大放异彩,对人们的生活模式和质量有很大的影响和提高。如亚马逊、淘宝、网易云音乐、爱奇艺等主流应用,都有着推荐系统的支撑。在传统电视媒体和网络电视领域上,推荐系统发挥着不可替代的作用。在线视频网站公司Netflix在2006年开办的NetflixPrize比赛更是吸引了无数团队投入到推荐系统的研究中,对推荐系统的发展有着非凡的意义。而现如今,推荐系统的性能更是直接关系到公司运营的利益,所以尽管推荐系统已经取得了不俗的进展,并已经广泛应用于各信息化公司和人们的生活之中,但对于推荐系统的准确度却也在不断提出更高的要求。推荐系统中最为关键的就是推荐算法,目前,按照推荐方法可以分为两类:基于内容的推荐算法和协同过滤算法。基于内容的推荐算法是直接分析产品内容,并根据目标用户过去的喜好推荐相似内容的产品,这种推荐算法简单直接,但是使用范围有限,只是用于有现有显著标签的产品。此类算法存在的问题是无法推荐用户从未接触类别产品。协同过滤推荐算法的主要思想是通过寻找目标用户的相似用户,根据其他用户的历史浏览信息,产生该用户对项目的喜好程度预测值,然后进行推荐。目前,协同过滤算法根据相似对象不同又分为两种:基于用户相似和基于项目相似的协同过滤算法。从原理上看,协同过滤算法可以推荐用户以前从未接触类别的商品。但是,此类算法存在矩阵稀疏性问题,由于产品数量过多,用户浏览记录较少。在这种情况下,推荐系统难以产生精确的推荐结果。由于协同过滤算法目前存在的一些问题,大量研究人员做了许多研究工作,提出了潜在因子模型,神经网络模型和图模型等解决方案。其中,目前比较流行且效率较高的是潜在因子模型LFM(LatentFactorModel)。潜在因子模型的基本方法是将用户和项目的不同潜在特征(Class)映射到相同的潜在因子空间,该算法的推荐指数为用户-潜在因子矩阵和潜在因子-项目矩阵的内积。算法矩阵分解过程如下:其中,定义P为用户潜在因子矩阵,Q为项目潜在因子矩阵,为评分矩阵。矩阵中评分越高,就可以认为用户对该项目喜好程度越高。该模型本质上是矩阵分解问题,为了解决该问题,已经有许多研究人员做了大量工作,提供了许多改进和变种方案。但是,在LFM模型中,分解得到的特征是无法解释的,这些特征往往是通过数学计算得到的而不是人为指定的。本专利技术针对潜在因子模型存在的缺点,定义显性潜在因子,指派可解释特征,同时又定义隐性潜在因子,考虑非可解释特征,然后依据评分矩阵,逆向学习训练得到定义的隐性潜在因子,从而得到最终用户对电视产品的精准推荐。
技术实现思路
针对上述问题,本专利技术提供基于显隐性潜在因子模型的电视产品精准推荐方法及系统,提高了推荐的准确度。为了实现上述目的,本专利技术采用以下技术方案:一种基于显隐性潜在因子模型的电视产品精准推荐方法,包括以下步骤:步骤1:电视产品正题名通过正则表达式进行处理,综合考虑多种反爬虫机制,设计爬虫策略,对所需的外部数据进行爬取;步骤2:根据电视产品和用户人群的不同特征,分别建立针对电视产品和用户人群的分类模型,通过所述分类模型实现对电视产品信息和用户信息的自动标签标注,得到标注标签后的电视产品信息和标注标签后的用户信息;步骤3:依据标注标签后的电视产品信息和标注标签后的用户信息及爬取的外部数据得出显性潜在因子,所述显性潜在因子包括电视产品显性潜在因子和用户显性潜在因子,通过显性潜在因子得出隐性潜在因子,基于显性潜在因子及隐性潜在因子构建显隐性潜在因子模型;步骤4:基于构建的显隐性潜在因子模型进行电视产品的推荐。进一步地,所述步骤1包括:步骤1.1:设计反爬虫机制,所述反爬虫机制包括采用模拟Ajax请求的方式,主动发起异步请求获取所需数据;步骤1.2:根据反爬虫机制设计网络爬虫算法,对网页数据进行爬取:采取所述反爬虫机制不断发起Http请求,然后接收Http回应,解析得到的HTML文件,如果是确定的结构,直接匹配得到标签中的数据;如果结构为非确定的,则对整个DOM树进行遍历搜索,获取标签中的数据。进一步地,所述步骤2包括:步骤2.1:根据电视产品的不同特征建立针对电视产品的分类模型:步骤2.1.1:根据电视产品的不同特征为电视产品设立不同等级的标签,所述不同等级的标签包括一级标签,所述一级标签包括基本特征和适用人群;步骤2.1.2:对于一级标签为基本特征的数据项,采用关键字和关键短语作为划分类别的输入数据源,采用支持向量机的方法对电视产品进行分类;步骤2.1.3:对于一级标签为适用人群的数据项,采用随机森林算法对电视产品进行分类;步骤2.1.4:通过步骤2.1.1至步骤2.1.3完成对电视产品的分类模型的构建,通过电视产品的分类模型对电视产品信息进行自动标签标注,得到标注标签后的电视产品信息;步骤2.2:根据用户人群的不同特征建立针对用户人群的分类模型:步骤2.2.1:根据用户人群的不同特征为用户人群设立不同等级的标签,所述不同等级的标签包括一级标签,所述一级标签包括用户人群基本特征和收视偏好;步骤2.2.2:对于一级标签为用户人群基本特征的数据项,采用随机森林算法对用户人群进行分类;步骤2.2.3:对于一级标签是收视偏好的数据项,建立将不同特征参数转化成输入格式,并且根据实际情况建立不同因素的评价体系,描述不同因素对用户节目偏好的贡献率,采用随机森林算法对用户人群进行分类;步骤2.2.4:通过步骤2.2.1至步骤2.2.3完成对用户人群的分类模型的构建,通过用户人群的分类模型对用户信息进行自动标签标注,得到标注标签后的用户信息。进一步地,所述用户信息包括用户收视信息及用户基本信息。进一步地,所述将不同特征参数转化成输入格式包括:通过计算用户收视信息样本中的各项的数据值,进行求均值方差计算,建立转换输入格式公式:其中,v1表示观看次数参量,μ1和ρ1分别表示该用户观看电视产品次数最多的观看次数和该电视产品观看次数占总观看电视产品次数的百分比,v2表示观看时长参量,τ和Δτ分别表示观看时间最长电视产品的观看时长和平均每个电视产品的观看时长,v3表示购买电视产品价格,其中C和ΔC分别表示购买最贵的一类电视产品的总花销和每一类电视产品的平均花销。进一步地,所述步骤3包括:步骤3.1:依据标注标签后的电视产品信息和爬取的外部数据得出电视产品显性潜在因子,所述电视产品显性潜在因子包括电视产品适用人群、电视产品静态参数及电视产品类别信息,所述电视产品静态参数包括电视产品的导演、演本文档来自技高网
...

【技术保护点】
1.一种基于显隐性潜在因子模型的电视产品精准推荐方法,其特征在于,包括以下步骤:步骤1:电视产品正题名通过正则表达式进行处理,综合考虑多种反爬虫机制,设计爬虫策略,对所需的外部数据进行爬取;步骤2:根据电视产品和用户人群的不同特征,分别建立针对电视产品和用户人群的分类模型,通过所述分类模型实现对电视产品信息和用户信息的自动标签标注,得到标注标签后的电视产品信息和标注标签后的用户信息;步骤3:依据标注标签后的电视产品信息和标注标签后的用户信息及爬取的外部数据得出显性潜在因子,所述显性潜在因子包括电视产品显性潜在因子和用户显性潜在因子,通过显性潜在因子得出隐性潜在因子,基于显性潜在因子及隐性潜在因子构建显隐性潜在因子模型;步骤4:基于构建的显隐性潜在因子模型进行电视产品的推荐。

【技术特征摘要】
1.一种基于显隐性潜在因子模型的电视产品精准推荐方法,其特征在于,包括以下步骤:步骤1:电视产品正题名通过正则表达式进行处理,综合考虑多种反爬虫机制,设计爬虫策略,对所需的外部数据进行爬取;步骤2:根据电视产品和用户人群的不同特征,分别建立针对电视产品和用户人群的分类模型,通过所述分类模型实现对电视产品信息和用户信息的自动标签标注,得到标注标签后的电视产品信息和标注标签后的用户信息;步骤3:依据标注标签后的电视产品信息和标注标签后的用户信息及爬取的外部数据得出显性潜在因子,所述显性潜在因子包括电视产品显性潜在因子和用户显性潜在因子,通过显性潜在因子得出隐性潜在因子,基于显性潜在因子及隐性潜在因子构建显隐性潜在因子模型;步骤4:基于构建的显隐性潜在因子模型进行电视产品的推荐。2.根据权利要求1所述的基于显隐性潜在因子模型的电视产品精准推荐方法,其特征在于,所述步骤1包括:步骤1.1:设计反爬虫机制,所述反爬虫机制包括采用模拟Ajax请求的方式,主动发起异步请求获取所需数据;步骤1.2:根据反爬虫机制设计网络爬虫算法,对网页数据进行爬取:采取所述反爬虫机制不断发起Http请求,然后接收Http回应,解析得到的HTML文件,如果是确定的结构,直接匹配得到标签中的数据;如果结构为非确定的,则对整个DOM树进行遍历搜索,获取标签中的数据。3.根据权利要求1所述的基于显隐性潜在因子模型的电视产品精准推荐方法,其特征在于,所述步骤2包括:步骤2.1:根据电视产品的不同特征建立针对电视产品的分类模型:步骤2.1.1:根据电视产品的不同特征为电视产品设立不同等级的标签,所述不同等级的标签包括一级标签,所述一级标签包括基本特征和适用人群;步骤2.1.2:对于一级标签为基本特征的数据项,采用关键字和关键短语作为划分类别的输入数据源,采用支持向量机的方法对电视产品进行分类;步骤2.1.3:对于一级标签为适用人群的数据项,采用随机森林算法对电视产品进行分类;步骤2.1.4:通过步骤2.1.1至步骤2.1.3完成对电视产品的分类模型的构建,通过电视产品的分类模型对电视产品信息进行自动标签标注,得到标注标签后的电视产品信息;步骤2.2:根据用户人群的不同特征建立针对用户人群的分类模型:步骤2.2.1:根据用户人群的不同特征为用户人群设立不同等级的标签,所述不同等级的标签包括一级标签,所述一级标签包括用户人群基本特征和收视偏好;步骤2.2.2:对于一级标签为用户人群基本特征的数据项,采用随机森林算法对用户人群进行分类;步骤2.2.3:对于一级标签是收视偏好的数据项,建立将不同特征参数转化成输入格式,并且根据实际情况建立不同因素的评价体系,描述不同因素对用户节目偏好的贡献率,采用随机森林算法对用户人群进行分类;步骤2.2.4:通过步骤2.2.1至步骤2.2.3完成对用户人群的分类模型的构建,通过用户人群的分类模型对用户信息进行自动标签标注,得到标注标签后的用户信息。4.根据权利要求1所述的基于显隐性潜在因子模型的电视产品精准推荐方法,其特征在于,所述用户信息包括用户收视信息及用户基本信息。5.根据权利要求4所述的基于显隐性潜在因子模型的电视产品精准推荐方法,其特征在于,所述将不同特征参数转化成输入格式包括:通过计算用户收视信息样本中的各项的数据值,进行求均值方差计算,建立转换输入格式公式:其中,v1表示观看次数参量,μ1和ρ1分别表示该用户观看电视产品次数最多的观看次数和该电...

【专利技术属性】
技术研发人员:奚琪桂智杰李创项永明杨萍
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1