一种基于大数据的影视作品市场分析方法技术

技术编号:18289605 阅读:71 留言:0更新日期:2018-06-24 04:21
本发明专利技术涉及一种基于大数据的影视作品市场分析方法,包括如下步骤:从社交网站获取数据;进行K‑Means聚类剔除异常数据;剔除异常数据的数据,构建一个分析流,进行多次K‑Means聚类和设置分箱节点对影片评分和观影人群进行分析后将数据存入目标文件。在进行步骤从社交网站获取数据之前,定义需要的观影评论数据指标。剔除异常值,对数据进行一次K‑Means聚类,将剔除异常数据的数据构建一个分析流,用K‑Means聚类算法或分层聚类演算法进行聚类处理,并设置分箱节点对数据按观影人群年龄和评分分级后将数据存入目标文件。

【技术实现步骤摘要】
一种基于大数据的影视作品市场分析方法
本专利技术属于数据挖掘
,具体涉及一种基于大数据的影视作品市场分析方法。
技术介绍
传统的数据分析方法和软件无法进行获取、加工和清洗的数据我们可以称之为大数据。大数据应用的关键在于数据获取变得更加便捷,数据仓库技术,可视化的分析结果。大数据犹如没有开发的“金矿”,可以开发和利用这些大数据为影视作品的投资决策提供数据支撑,运用在影视行业。近年来,大数据在各行各业引领浪潮,成为重要的生产要素,在影视作品的生产过程中,需要大数据驱动创新,节目受众需求多样化需要大数据分析。
技术实现思路
本专利技术的目的在于,针对上述现有技术的问题,提供设计一种基于大数据的影视作品市场分析方法,以解决上述技术问题。为了达到上述目的,本专利技术的技术方案是:一种基于大数据的影视作品市场分析方法,包括如下步骤:从社交网站获取数据;进行K-Means聚类剔除异常数据;剔除异常数据的数据,构建一个分析流,进行多次K-Means聚类和设置分箱节点对影片评分和观影人群进行分析后将数据存入目标文件。进一步的,在进行步骤从社交网站获取数据之前,定义需要的观影评论数据指标。进一步的,所述数据指标包括影片评价得分均值,影片被网友评分次数,评分网友平均年龄,评分网友性别分布,评论该影片的网友的评分次数的均值,评价该影片的网友所有评分得分均值的均值。进一步的,从社交网站获取数据还包括利用python提取与设定数据指标匹配的字段,并存入ORACLE数据库管理系统。进一步的,步骤利用python提取与设定数据指标匹配的字段,并存入ORACLE数据库管理系统还包括:将提取的与设定的数据指标匹配字段进行Z标准化,去除数据的单位限制,转化为无量纲的纯数值,并存入ORACLE数据库管理系统。进一步的,进行K-Means聚类剔除异常数据包括:剔除异常值,对数据进行一次K-Means聚类,评论该影片的网友的评分次数的均值过高或过低,且评价该影片的网友所有评分得分均值的均值过高或过低,判断评论该影片的用户多为异常用户,作为异常数据剔除。进一步的,将剔除异常数据的数据构建一个分析流,用K-Means聚类算法或分层聚类演算法进行聚类处理,并设置分箱节点对数据按观影人群年龄和评分分级后将数据存入目标文件。进一步的,所述分析流由节点组成,每个单独的节点就是一个函数或程序进行聚类分析。进一步的,该方法还包括使用分箱节点对离散型数据按其数值大小进行分段操作,对数据按观影人群年龄和评分分级,分析观影人群的年龄分布等信息指导影视作品投资决策。K-Means聚类为了把现有的拥有样本的数据集分成各个相似度较高的簇,K值需要根据需求经验确定,可多次尝试不同的K值确定合适的K值。当需要对一系列离散型数据按其数值大小进行分段操作时,使用分箱节点。用Clementine设置分箱节点对数据按观影人群年龄和评分分级,分析观影人群的年龄分布等信息指导影视作品投资决策等。本专利技术的有益效果在于,本专利技术通过大数据对应是作品进行市场分析,大为影视作品的投资决策提供数据支撑。此外,本专利技术设计原理可靠,结构简单,具有非常广泛的应用前景。由此可见,本专利技术与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。附图说明图1为本专利技术提供的一种基于大数据的影视作品市场分析方法流程图。具体实施方式下面结合附图并通过具体实施例对本专利技术进行详细阐述,以下实施例是对本专利技术的解释,而本专利技术并不局限于以下实施方式。如图1所示,本专利技术实施例提供的一种基于大数据的影视作品市场分析方法,包括如下步骤:定义观影评论数据指标;从社交网站获取数据,利用python提取与设定数据指标匹配的字段,将提取的与设定的数据指标匹配字段进行Z标准化,去除数据的单位限制,转化为无量纲的纯数值,并存入ORACLE数据库管理系统;进行K-Means聚类剔除异常数据,剔除异常值,对数据进行一次K-Means聚类,评论该影片的网友的评分次数的均值过高或过低,且评价该影片的网友所有评分得分均值的均值过高或过低,判断评论该影片的用户多为异常用户,作为异常数据剔除;剔除异常数据的数据,构建一个分析流,进行多次K-Means聚类和设置分箱节点对影片评分和观影人群进行分析后将数据存入目标文件。所述数据指标包括影片评价得分均值,影片被网友评分次数,评分网友平均年龄,评分网友性别分布,评论该影片的网友的评分次数的均值,评价该影片的网友所有评分得分均值的均值。将剔除异常数据的数据构建一个分析流,用K-Means聚类算法或分层聚类演算法进行聚类处理,并设置分箱节点对数据按观影人群年龄和评分分级后将数据存入目标文件。所述分析流由节点组成,每个单独的节点就是一个函数或程序进行聚类分析。该方法还包括使用分箱节点对离散型数据按其数值大小进行分段操作,对数据按观影人群年龄和评分分级,分析观影人群的年龄分布等信息指导影视作品投资决策。ORACLE数据库管理系统作为数据存放的工具,使用Clementine数据挖掘工具,使用Python高级程序设计语言,进行数据挖掘数据预处理。数据来源自豆瓣,时光网等网页网络观影人群对影视作品的评分。数据的准备阶段,根据需求确定纳入分析的数据指标,所述数据指标包括影片评价得分均值,影片被网友评分次数,评分网友平均年龄,评分网友性别分布,评论该影片的网友的评分次数的均值,评价该影片的网友所有评分得分均值的均值,利用python提取这些字段,存放进数据库;将上述提取的数据进行Z标准化,去除数据的单位限制,将其转化为无量纲的纯数值;剔除异常值,对数据进行一次K-Means聚类,评论该影片的网友的评分次数的均值过高或过低,且评价该影片的网友所有评分得分均值的均值过高或过低,判断评论该影片的用户多为异常用户,该影片存在恶意刷好评或差评现象,作为异常数据剔除;将剔除异常数据的数据纳入Clementine软件构建一个分析流,分析流由一个个带有特定功能的节点组成,然后用K-Means聚类算法或分层聚类演算法其中之一进行聚类处理,并设置分箱节点对数据按观影人群年龄和评分分级,最后利用导出类型中的若干模块将数据存入目标文件。每个单独的节点就是一个函数或程序进行聚类分析;K-Means聚类为了把现有的拥有样本的数据集分成各个相似度较高的簇,K值需要自己根据需求经验确定,可多次尝试不同的K值确定合适的K值。使用分箱节点对离散型数据按其数值大小进行分段操作,用Clementine设置分箱节点对数据按观影人群年龄和评分分级,分析观影人群的年龄分布等信息指导影视作品投资决策等。以上公开的仅为本专利技术的优选实施方式,但本专利技术并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本专利技术原理前提下所作的若干改进和润饰,都应落在本专利技术的保护范围内。本文档来自技高网...
一种基于大数据的影视作品市场分析方法

【技术保护点】
1.一种基于大数据的影视作品市场分析方法,其特征在于包括如下步骤:从社交网站获取数据;进行K‑Means聚类剔除异常数据;剔除异常数据的数据,构建一个分析流,进行多次K‑Means聚类和设置分箱节点对影片评分和观影人群进行分析后将数据存入目标文件。

【技术特征摘要】
1.一种基于大数据的影视作品市场分析方法,其特征在于包括如下步骤:从社交网站获取数据;进行K-Means聚类剔除异常数据;剔除异常数据的数据,构建一个分析流,进行多次K-Means聚类和设置分箱节点对影片评分和观影人群进行分析后将数据存入目标文件。2.根据权利要求1所述的一种基于大数据的影视作品市场分析系统,其特征在于,在进行步骤从社交网站获取数据之前,定义需要的观影评论数据指标。3.根据权利要求2所述的一种基于大数据的影视作品市场分析方法,其特征在于,所述数据指标包括影片评价得分均值,影片被网友评分次数,评分网友平均年龄,评分网友性别分布,评论该影片的网友的评分次数的均值,评价该影片的网友所有评分得分均值的均值。4.根据权利要求3所述的一种基于大数据的影视作品市场分析方法,其特征在于,从社交网站获取数据还包括利用python提取与设定数据指标匹配的字段,并存入ORACLE数据库管理系统。5.根据权利要求4所述的一种基于大数据的影视作品市场分析方法,其特征在于,步骤利用python提取与设定数据指标匹配的字段,并存入ORACLE数据库管理系统还包括:将提取的与设定的数据指标匹配...

【专利技术属性】
技术研发人员:王莹
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1