一种基于影评的电影标签自动生成方法技术

技术编号：20272829 阅读：22 留言：0更新日期：2019-02-02 03:46

本发明专利技术提出了一种基于影评的电影标签自动生成算法，本发明专利技术中的算法充分考虑了目前有标签的电影的数据集中存在的缺失问题，首先采用带权重的无监督算法从影评中自动为训练集补足标签。同时，本发明专利技术还充分考虑了两部电影各项属性的相似性和标签相似性的关系，以机器学习的方法预测从各项属性到标签相似性的映射，而不是采用简单的相似性如余弦相似性计算粗略的相似性关系。最后，本方法在使用传统K近邻算法得到标签的候选多重集后，并不采用简单的评价标准排序选出标签集，而是采用基于标签共现关系的图算法来决定候选标签的顺序，从而决定最终的标签集。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于影评的电影标签自动生成方法
本专利技术涉及人工智能领域，更具体的，涉及一种基于影评的电影标签自动生成方法。
技术介绍
电影由于其丰富的元素迅速地成为人们日常生活中必备的休闲方式之一。电影的市场越来越大，电影的种类越来越多。琳琅满目的电影以及电影的时长导致用户不可能完整浏览一部影片，对于即将上映的电影来说，用户了解一部电影的较好方式通常包括简介，预告片，其他用户的片评论以及电影标签，但对于一些年份较古老或者较冷门的电影，用户了解的方式通常只有简介和电影标签。因此，电影的社会标签具有较大的意义，能帮助推荐系统提升为用户推荐的电影的准确性，能帮助提供电影资讯的平台进行电影细粒度分类以及丰富电影检索功能，并能帮助用户迅速的了解电影的主要信息。但是，目前对于未上映的电影或者冷门电影，由于观看的用户数目极少，因此这部分电影的社会标签通常非常少甚至没有，而这部分电影的数量远超于社会标签较为丰富的电影。手工的为这部分电影打标签不仅费时费力，而且难以较全面地覆盖电影的各个方面。
技术实现思路
为了解决现有技术中对于未上映的电影或者冷门电影这部分电影的社会标签通常非常少甚至没有不足，本专利技术提供了一种基于影评的电影标签自动生成方法。为实现以上专利技术目的，采用的技术方案是：一种基于影评的电影标签自动生成方法，包括以下步骤：步骤S1：获取平台上所有电影的影评、属性及其对应的社会标签作为训练集；步骤S2：若某一电影的社会标签数量低于设定的阈值，则通过标签补全算法从其影评中自动提取标签，从而为该电影补充标签；步骤S3：对训练集中的每每两部电影计算属性的相似度，以及计算每每两部...

【技术保护点】
1.一种基于影评的电影标签自动生成方法，其特征在于，包括以下步骤：步骤S1：获取平台上所有电影的影评、属性及其对应的社会标签作为训练集；步骤S2：若某一电影的社会标签数量低于设定的阈值，则通过标签补全算法从其影评中自动提取标签，从而为该电影补充标签；步骤S3：对训练集中的每每两部电影计算属性的相似度，以及计算每每两部电影社会标签集合的相似度，从而构建一个新的数据集，并用其建立一个回归学习器，学习从属性到相似度的映射；步骤S4：基于回归学习器预测的相似度采用K近邻方法确定每部无标签电影在训练集中的前K部最相似的电影，这些电影的社会标签组成的多重集成为候选标签集；步骤S5：利用标签共现关系组成有向图，以此建立候选标签选取算法从候选标签集中确定每部无标签电影的最终标签集。

【技术特征摘要】
1.一种基于影评的电影标签自动生成方法，其特征在于，包括以下步骤：步骤S1：获取平台上所有电影的影评、属性及其对应的社会标签作为训练集；步骤S2：若某一电影的社会标签数量低于设定的阈值，则通过标签补全算法从其影评中自动提取标签，从而为该电影补充标签；步骤S3：对训练集中的每每两部电影计算属性的相似度，以及计算每每两部电影社会标签集合的相似度，从而构建一个新的数据集，并用其建立一个回归学习器，学习从属性到相似度的映射；步骤S4：基于回归学习器预测的相似度采用K近邻方法确定每部无标签电影在训练集中的前K部最相似的电影，这些电影的社会标签组成的多重集成为候选标签集；步骤S5：利用标签共现关系组成有向图，以此建立候选标签选取算法从候选标签集中确定每部无标签电影的最终标签集。2.根据权利要求1所述的一种基于影评的电影标签自动生成算法，其特征在于，步骤S2所述的标签补全算法包括以下步骤：步骤S201：通...

【专利技术属性】
技术研发人员：吴迪，吴灿锐，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人