【技术实现步骤摘要】
一种基于数据融合的电影票房预测方法、系统及电子设备
[0001]本专利技术涉及计算机
,特别是涉及一种基于数据融合的电影票房预测方法、系统及电子设备。
技术介绍
[0002]随着人们生活水平、电影制作水平以及计算机技术的发展,越来越多的人通过看电影来丰富自己的生活,并且机器学习成为人工智能领域的研究热点,其理论和方法慢慢被广泛应用于解决工程应用和科学领域的复杂问题。电影创作融资往往要参考电影作品本身以及行业社会的发展情况,这就产生了电影数据、行业数据、社会数据等多源数据融合的需求。对于一部电影的成功与否,其电影票房是一项重要的评价指标,而如何通过数据融合来对电影票房进行合理、准确地预测,识别出更有价值的电影,成为电影行业从事与研究人员越来越关注的地方。
技术实现思路
[0003]本专利技术的目的是提供一种基于数据融合的电影票房预测方法、系统及电子设备,通过数据融合来对电影票房进行合理、准确地预测,识别出更有价值的电影。
[0004]为实现上述目的,本专利技术提供了如下方案:
[0005] ...
【技术保护点】
【技术特征摘要】
1.一种基于数据融合的电影票房预测方法,其特征在于,包括:构建数据集;所述数据集包括电影相关数据、中国微观数据、百度搜索数据和疫情数据;采用concat方式对所述数据集中的数据进行特征融合,得到初步训练集和测试集,并采用LightGBM去除所述初步训练集中的冗余特征,得到训练模型时所需的训练集;所述初步训练集和所述测试集均包括多个样本数据;所述样本数据包括输入数据和对应的标签数据;所述输入数据包括电影特征、国家微观数据特征、疫情数据特征和百度搜索指数特征;所述标签数据为电影总票房;构建基学习器;所述基学习器包括多个模型,分别为XGBoost模型、LightGBM模型、CatBoost模型、GBDT模型、RF模型、SVR模型、Ridge模型、Lasso模型和MLP模型;采用训练模型时所需的训练集训练所述基学习器,并计算训练后的基学习器在测试集中每个模型的拟合优度;构建元学习器的训练数据和测试数据,并根据所述元学习器的训练数据和测试数据训练所述元学习器;所述元学习器的训练数据为将验证集中的数据输入至训练后的基学习器后得到的预测结果;所述元学习器的测试数据为采用拟合优度对训练后的基学习器得到的预测结果进行加权平均后得到的数据;训练后的元学习器用于预测电影票房;训练模型时所需的训练集分为5折,4折作为基学习器的训练集,1折作为基学习器的验证集。2.根据权利要求1所述的一种基于数据融合的电影票房预测方法,其特征在于,所述构建数据集,具体包括:采用网站下载方式、网络爬虫方式和人工标注方式获取电影相关数据、中国微观数据、百度搜索数据和疫情数据;根据所述电影相关数据、所述中国微观数据、所述百度搜索数据和所述疫情数据,构建数据集。3.根据权利要求1所述的一种基于数据融合的电影票房预测方法,其特征在于,所述电影相关数据包括影片名称、猫眼想看人数、淘票票想看人数、豆瓣想看人数、猫眼评分、淘票票评分、豆瓣评分、时长、演员、编剧、剧情简介、上映日期、年度场次、总场次、年度人次、总人次、首周票房、平均票价、场均人次、影片英文名称、主类型、完整类型、导演、出品公司、制作公司、发行公司、影片制式、国别、投资规模、整合营销公司、新媒体营销公司、制片人、监制、出品人、影片属性、服务费和总票房;所述中国微观数据包括全体居民消费水平、农村居民消费水平、城镇居民消费水平、全体居民消费水平指数、农村居民消费水平指数、第三产业所占比重、国内生产总值、居民人均可支配收入、电影院线、电影院线内银幕、互联网上网人数、互联网宽带接入端口、互联网国际出口带宽、开通互联网宽带业务的行政村比重、互联网普及率和互联网宽带接入用户;所述百度搜索数据包括移动端百度搜索指数、PC端百度搜索指数和PC+移动端百度搜索指数。4.根据权利要求1所述的一种基于数据融合的电影票房预测方法,其特征在于,所述基学习器的决策层采用的方法为Stacking方法。5.根据权利要求1所述的一种基于数据融合的电影...
【专利技术属性】
技术研发人员:倪渊,董飞星,张健,邹萌,
申请(专利权)人:北京信息科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。