本发明专利技术公开一种基于数据融合的电影票房预测方法、系统及电子设备,涉及计算机技术领域,该方法包括:对包括电影相关数据、中国微观数据、百度搜索数据和疫情数据的数据集进行预处理;预处理后的数据集包括训练集和测试集;采用训练集训练基学习器,并计算训练后的基学习器在测试集中拟合优度;构建元学习器的训练数据和测试数据,并根据训练数据和测试数据训练元学习器;训练数据为将测试集中的数据输入至训练后的基学习器后得到的预测结果;测试数据为采用拟合优度对训练后的基学习器得到的预测结果进行加权平均后得到的数据;训练后的元学习器用于预测电影票房。本发明专利技术通过数据融合能够合理、准确地预测电影票房。准确地预测电影票房。准确地预测电影票房。
【技术实现步骤摘要】
一种基于数据融合的电影票房预测方法、系统及电子设备
[0001]本专利技术涉及计算机
,特别是涉及一种基于数据融合的电影票房预测方法、系统及电子设备。
技术介绍
[0002]随着人们生活水平、电影制作水平以及计算机技术的发展,越来越多的人通过看电影来丰富自己的生活,并且机器学习成为人工智能领域的研究热点,其理论和方法慢慢被广泛应用于解决工程应用和科学领域的复杂问题。电影创作融资往往要参考电影作品本身以及行业社会的发展情况,这就产生了电影数据、行业数据、社会数据等多源数据融合的需求。对于一部电影的成功与否,其电影票房是一项重要的评价指标,而如何通过数据融合来对电影票房进行合理、准确地预测,识别出更有价值的电影,成为电影行业从事与研究人员越来越关注的地方。
技术实现思路
[0003]本专利技术的目的是提供一种基于数据融合的电影票房预测方法、系统及电子设备,通过数据融合来对电影票房进行合理、准确地预测,识别出更有价值的电影。
[0004]为实现上述目的,本专利技术提供了如下方案:
[0005]一种基于数据融合的电影票房预测方法,包括:
[0006]构建数据集;所述数据集包括电影相关数据、中国微观数据、百度搜索数据和疫情数据;
[0007]采用concat方式对所述数据集中的数据进行特征融合,得到初步训练集和测试集,并采用LightGBM去除所述初步训练集中的冗余特征,得到训练模型时所需的训练集;所述初步训练集和所述测试集均包括多个样本数据;所述样本数据包括输入数据和对应的标签数据;所述输入数据包括电影特征、国家微观数据特征、疫情数据特征和百度搜索指数特征;所述标签数据为电影总票房;
[0008]构建基学习器;所述基学习器包括多个模型,分别为XGBoost模型、LightGBM模型、CatBoost模型、GBDT模型、RF模型、SVR模型、Ridge模型、Lasso模型和MLP模型;
[0009]采用训练模型时所需的训练集训练所述基学习器,并计算训练后的基学习器在测试集中每个模型的拟合优度;
[0010]构建元学习器的训练数据和测试数据,并根据所述元学习器的训练数据和测试数据训练所述元学习器;所述元学习器的训练数据为将验证集中的数据输入至训练后的基学习器后得到的预测结果;所述元学习器的测试数据为采用拟合优度对训练后的基学习器得到的预测结果进行加权平均后得到的数据;训练后的元学习器用于预测电影票房;训练模型时所需的训练集分为5折,4折作为基学习器的训练集,1折作为基学习器的验证集。
[0011]第二方面,本专利技术提供了一种基于数据融合的电影票房预测系统,包括:
[0012]数据集构建模块,用于构建数据集;所述数据集包括电影相关数据、中国微观数
据、百度搜索数据和疫情数据;
[0013]训练集和测试集确定模块,用于采用concat方式对所述数据集中的数据进行特征融合,得到初步训练集和测试集,并采用LightGBM去除所述初步训练集中的冗余特征,得到训练模型时所需的训练集;所述初步训练集和所述测试集均包括多个样本数据;所述样本数据包括输入数据和对应的标签数据;所述输入数据包括电影特征、国家微观数据特征、疫情数据特征和百度搜索指数特征;所述标签数据为电影总票房;
[0014]基学习器构建模块,用于构建基学习器;所述基学习器包括多个模型,分别为XGBoost模型、LightGBM模型、CatBoost模型、GBDT模型、RF模型、SVR模型、Ridge模型、Lasso模型和MLP模型;
[0015]拟合优度计算模块,用于采用训练模型时所需的训练集训练所述基学习器,并计算训练后的基学习器在测试集中每个模型的拟合优度;
[0016]元学习器训练模块,用于构建元学习器的训练数据和测试数据,并根据所述元学习器的训练数据和测试数据训练所述元学习器;所述元学习器的训练数据为将验证集中的数据输入至训练后的基学习器后得到的预测结果;所述元学习器的测试数据为采用拟合优度对训练后的基学习器得到的预测结果进行加权平均后得到的数据;训练后的元学习器用于预测电影票房;训练模型时所需的训练集分为5折,4折作为基学习器的训练集,1折作为基学习器的验证集。
[0017]第三方面,本专利技术提供了一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行根据第一方面所述的一种基于数据融合的电影票房预测方法。
[0018]根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:
[0019]在电影本身特征基础上,引入多项国家微观数据、上映日期前后30天的电影名称百度搜索指数数据、新冠疫情数据等特征进行特征层融合。决策层融合采用Stacking方法,使用一种加权Stacking算法进行建模,影响因素较为全面、实验数据集较大,对于电影行业的发展有一定的意义。
附图说明
[0020]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0021]图1为本专利技术实施例提供的基于数据融合的电影票房预测方法的流程图;
[0022]图2为本专利技术实施例提供的基于数据融合的电影票房预测系统的结构图。
具体实施方式
[0023]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0024]本专利技术引入决策级融合机制,基于Stacking构建一种基于数据融合的电影票房预测方法、系统及电子设备,识别电影的价值,为电影制作与发行公司提供商业决策支撑与指导,促进电影行业的持续发展。
[0025]为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。
[0026]针对现有技术中存在的缺陷,本专利技术实施例提供了一种基于数据融合的电影票房预测方法,如图1所示,该方法包括如下步骤。
[0027]步骤100:构建数据集;所述数据集包括电影相关数据、中国微观数据、百度搜索数据和疫情数据,具体为:
[0028]步骤101:采用网站下载方式、网络爬虫方式和人工标注方式获取电影相关数据、中国微观数据、百度搜索数据和疫情数据。
[0029]步骤102:根据所述电影相关数据、所述中国微观数据、所述百度搜索数据和所述疫情数据,构建数据集。
[0030]所述电影相关数据来自艺恩娱数网站,包括:影片名称、猫眼想看人数、淘票票想看人数、豆瓣想看人数、猫眼评分、淘票票评分、豆瓣评分、时长、演员、编剧、剧情简介、上映日期、年度场次本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于数据融合的电影票房预测方法,其特征在于,包括:构建数据集;所述数据集包括电影相关数据、中国微观数据、百度搜索数据和疫情数据;采用concat方式对所述数据集中的数据进行特征融合,得到初步训练集和测试集,并采用LightGBM去除所述初步训练集中的冗余特征,得到训练模型时所需的训练集;所述初步训练集和所述测试集均包括多个样本数据;所述样本数据包括输入数据和对应的标签数据;所述输入数据包括电影特征、国家微观数据特征、疫情数据特征和百度搜索指数特征;所述标签数据为电影总票房;构建基学习器;所述基学习器包括多个模型,分别为XGBoost模型、LightGBM模型、CatBoost模型、GBDT模型、RF模型、SVR模型、Ridge模型、Lasso模型和MLP模型;采用训练模型时所需的训练集训练所述基学习器,并计算训练后的基学习器在测试集中每个模型的拟合优度;构建元学习器的训练数据和测试数据,并根据所述元学习器的训练数据和测试数据训练所述元学习器;所述元学习器的训练数据为将验证集中的数据输入至训练后的基学习器后得到的预测结果;所述元学习器的测试数据为采用拟合优度对训练后的基学习器得到的预测结果进行加权平均后得到的数据;训练后的元学习器用于预测电影票房;训练模型时所需的训练集分为5折,4折作为基学习器的训练集,1折作为基学习器的验证集。2.根据权利要求1所述的一种基于数据融合的电影票房预测方法,其特征在于,所述构建数据集,具体包括:采用网站下载方式、网络爬虫方式和人工标注方式获取电影相关数据、中国微观数据、百度搜索数据和疫情数据;根据所述电影相关数据、所述中国微观数据、所述百度搜索数据和所述疫情数据,构建数据集。3.根据权利要求1所述的一种基于数据融合的电影票房预测方法,其特征在于,所述电影相关数据包括影片名称、猫眼想看人数、淘票票想看人数、豆瓣想看人数、猫眼评分、淘票票评分、豆瓣评分、时长、演员、编剧、剧情简介、上映日期、年度场次、总场次、年度人次、总人次、首周票房、平均票价、场均人次、影片英文名称、主类型、完整类型、导演、出品公司、制作公司、发行公司、影片制式、国别、投资规模、整合营销公司、新媒体营销公司、制片人、监制、出品人、影片属性、服务费和总票房;所述中国微观数据包括全体居民消费水平、农村居民消费水平、城镇居民消费水平、全体居民消费水平指数、农村居民消费水平指数、第三产业所占比重、国内生产总值、居民人均可支配收入、电影院线、电影院线内银幕、互联网上网人数、互联网宽带接入端口、互联网国际出口带宽、开通互联网宽带业务的行政村比重、互联网普及率和互联网宽带接入用户;所述百度搜索数据包括移动端百度搜索指数、PC端百度搜索指数和PC+移动端百度搜索指数。4.根据权利要求1所述的一种基于数据融合的电影票房预测方法,其特征在于,所述基学习器的决策层采用的方法为Stacking方法。5.根据权利要求1所述的一种基于数据融合的电影...
【专利技术属性】
技术研发人员:倪渊,董飞星,张健,邹萌,
申请(专利权)人:北京信息科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。