一种媒资数据整合方法及系统技术方案

技术编号:14494619 阅读:73 留言:0更新日期:2017-01-29 17:28
本发明专利技术公开了一种媒资数据的自动整合方法及系统,所述媒资数据的自动整合方法包括:步骤A、收到待处理媒资时,根据基础条件在媒资数据库中确定比较范围;步骤B、将待处理媒资与比较范围内的媒资逐一比较,根据比较条件计算出相似度;步骤C、将相似度与阀值进行比较,当相似度大于阀值上限时,确认待处理媒资与媒资数据库中的标准媒资相同,将待处理媒资合入标准媒资。本发明专利技术先确定待处理媒资的比较范围,在比较范围内计算相似度,根据相似度判断待处理媒资与媒资数据库中已有的媒资是否相同,相同则合入,从而实现了媒资数据的自动整合,无需人工处理,解决了现有海量的媒资数据人工整合工作量巨大、很费时且操作麻烦的问题。

【技术实现步骤摘要】

本专利技术涉及媒资
,特别涉及一种媒资数据的自动整合方法及系统。
技术介绍
客户端平台的媒资信息一般来源于多个媒资牌照方,需要统一整合这些媒资数据生成标准的媒资以满足客户端需求。如图1和图2所示,牌照方有腾讯、爱奇艺、XX(其他牌照方)等,需要根据媒资数据(此处为视频以及与其相关的内容)的类型(电影、电视剧、综艺、动漫等类型)分别整合。判断牌照方提供的新片与对应的数据库中的某个片子是否相同,相同则不再增加该片的音视频数据,不同才加入该片。但是,由于各个牌照方的媒资数据量太大、格式不统一、信息不完整、有重复并且存在错误信息等原因,自动整合这些数据实现起来有一定难度。以爱奇艺电影整合为例,其媒资信息如下表所示。但是标准的电影库中已经存在类似影片(由其他牌照方先合入),虽然影片名称相同,但仍有些基本信息不同。待整合牌照的媒资信息已有的影片牌照爱奇艺数据库频道电影电影标题白色情人节白色情人节导演杨东根梁允浩演员全智贤;车银真;朴信阳;全茂松;金世俊朴信阳类型正片正片年代20111999其他海报、简介海报、简介表1由此可知,在牌照方加入新的媒资信息需要整合时,由于标准的数据库中的某个片子可能有些项目与新片相同,有些项目不同,并不能确认两部片子是否为同一部,往往需要人工一一搜索比对处理(相同则牌照的电影合入标准电影;不同则新增一个标准的电影)。由于增加的媒资信息的数据量很大,人工处理进行海量的媒资数据整合的工作量巨大、很费时且操作麻烦。因而现有技术还有待改进和提高。
技术实现思路
鉴于上述现有技术的不足之处,本专利技术的目的在于提供一种媒资数据的自动整合方法及系统,以解决现有海量的媒资数据人工整合工作量巨大、很费时且操作麻烦的问题。为了达到上述目的,本专利技术采取了以下技术方案:一种媒资数据的自动整合方法,其包括:步骤A、收到待处理媒资时,根据基础条件在媒资数据库中确定比较范围;步骤B、将待处理媒资与比较范围内的媒资逐一比较,根据比较条件计算出相似度;步骤C、将相似度与阀值进行比较,当相似度大于阀值上限时,确认待处理媒资与媒资数据库中的标准媒资相同,将待处理媒资合入标准媒资。所述的媒资数据的自动整合方法中,所述步骤A具体包括:A1、收到待处理媒资时,获取条件组列表;所述条件组列表包括若干个按序排列的条件组,选择条件组一;A2、根据条件组中的基础条件,在媒资数据库中查询是否有与待处理媒资的基础条件相同的标准媒资;A3、有则该条件组为比较范围;没有则按序选择下一条件组,返回步骤A2。所述的媒资数据的自动整合方法中,在所述步骤A1中,每个条件组包括根据媒资数据的基本信息生成的基础条件和比较条件、及阀值上限和阀值下限:基础条件用于在海量数据中确定比较范围,比较条件用于计算相似度,阀值上限和阀值下限是相似度上下限的范围取值。所述的媒资数据的自动整合方法中,在所述步骤A2中,基础条件为标题和类型时,采用单个字段比较方法,在媒资数据库中查询是否有与该待处理媒资的标题和类型相同的标准媒资。所述的媒资数据的自动整合方法中,所述步骤B具体包括:步骤B1、将待处理媒资与比较条件内的各媒资逐一比较;步骤B2、分别计算待处理媒资与各媒资的比较值,根据比较值计算相似度。所述的媒资数据的自动整合方法中,在所述步骤B2中,比较条件为导演、演员、年代时,导演、演员采用集合字段比较方法获得比较值,所述比较值为两个集合的交集除以两个集合的并集;年代采用单个字段比较方法判断待处理媒资与比较条件的年代是否相同,相同则比较值为1,不同则比较值为0。所述的媒资数据的自动整合方法中,在所述步骤B2中,相似度为各比较条件的比较值之和除以比较条件的个数。所述的媒资数据的自动整合方法中,所述步骤C还包括:当相似度小于等于阀值下限时,确认待处理媒资与所述标准媒资不相同,按序选择下一条件组,返回步骤A2;直至所有条件组都判断为不相同时,将待处理媒资添加至媒资数据库中作为一条新的媒资。所述的媒资数据的自动整合方法中,所述步骤C还包括:若相似度在阀值上限与阀值下限之间,则判断待处理媒资与所述标准媒资疑似,反馈待处理媒资至后台进行人工处理。一种实现所述的媒资数据的自动整合方法的系统,其包括条件设置模块、处理判断模块和媒资数据库;所述处理判断模块收到待处理媒资时,根据条件设置模块的基础条件在媒资数据库中确定比较范围;处理判断模块将待处理媒资与比较范围内的媒资逐一比较,根据比较条件计算出相似度;将相似度与阀值进行比较,当相似度大于阀值上限时,处理判断模块确认待处理媒资与媒资数据库中的标准媒资相同,将待处理媒资合入标准媒资。相较于现有技术,本专利技术提供的媒资数据的自动整合方法及系统,收到待处理媒资时,根据基础条件在媒资数据库中确定比较范围;将待处理媒资与比较范围内的媒资逐一比较,根据比较条件计算出相似度;将相似度与阀值进行比较,当相似度大于阀值上限时,确认待处理媒资与媒资数据库中的标准媒资相同,将待处理媒资合入标准媒资。本专利技术先确定待处理媒资的比较范围,在比较范围内计算相似度,根据相似度判断待处理媒资与媒资数据库中已有的媒资是否相同,相同则合入,从而实现了媒资数据的自动整合,无需人工处理,解决了现有海量的媒资数据人工整合工作量巨大、很费时且操作麻烦的问题。附图说明图1为现有电影整合的示意图。图2为现有电视剧整合的示意图。图3为本专利技术提供的媒资数据的自动整合方法流程图。图4为本专利技术提供的海量数据实时查询的系统的结构框图。具体实施方式本专利技术提供一种媒资数据的自动整合方法及系统,通过设置若干个条件组合,将需要增加的片子根据条件组合的条件与媒资数据库中的影片进行比较,即可判断需要增加的片子是否已由其他牌照方事先整合至媒资数据库中,从而实现了媒资数据的自动整合。为使本专利技术的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。本实施例提供的媒资数据的自动整合方法可应用在云端系统或平台服务系统之类的系统上。各牌照方将新的媒资数据发送至系统中,由系统对海量的媒资数据进行自动整合。请参阅图3,本专利技术提供的媒资数据的自动整合方法包括:S100、收到待处理媒资时,根据基础条件在媒资数据库中确定比较范围;S200、将待处理媒资与比较范围内的媒资逐一比较,根据比较条件计算出相似度;S300、将相似度与阀值进行比较,当相似度大于阀值上限时,确认待处理媒资与媒资数据库中的标准媒资相同,将待处理媒资合入标准媒资。本实施例中,系统工作时,实时检测是否收到牌照方提供的新的待处理媒资,一收到新的待处理媒资就立即执行上述步骤S100。一个牌照方可能同时上传多条待处理媒资,一条待处理媒资包括一条音视频数据及其基本信息。音视频数据如一部电影、综艺节目的一集或全集、或动漫的一集或全集的视频资源。基础信息可作为条件,其包括频道(如电影、电视剧、动漫、综艺等频道)、标题(即影片的名称)、导演、演员、类型(如正片、喜剧片、恐怖片、纪录片等类型)、年代、地区、语言、海报、简介等。在所述步骤S100中,为了方便确定比较范围,可对基础条件进行分组比较。则所述步骤S100具体包括:步骤110、收到待处理媒资时,获取条件组列表;所述条件组列本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201610777461.html" title="一种媒资数据整合方法及系统原文来自X技术">媒资数据整合方法及系统</a>

【技术保护点】
一种媒资数据的自动整合方法,其特征在于,包括:步骤A、收到待处理媒资时,根据基础条件在媒资数据库中确定比较范围;步骤B、将待处理媒资与比较范围内的媒资逐一比较,根据比较条件计算出相似度;步骤C、将相似度与阀值进行比较,当相似度大于阀值上限时,确认待处理媒资与媒资数据库中的标准媒资相同,将待处理媒资合入标准媒资。

【技术特征摘要】
1.一种媒资数据的自动整合方法,其特征在于,包括:步骤A、收到待处理媒资时,根据基础条件在媒资数据库中确定比较范围;步骤B、将待处理媒资与比较范围内的媒资逐一比较,根据比较条件计算出相似度;步骤C、将相似度与阀值进行比较,当相似度大于阀值上限时,确认待处理媒资与媒资数据库中的标准媒资相同,将待处理媒资合入标准媒资。2.根据权利要求1所述的媒资数据的自动整合方法,其特征在于,所述步骤A具体包括:A1、收到待处理媒资时,获取条件组列表;所述条件组列表包括若干个按序排列的条件组,选择条件组一;A2、根据条件组中的基础条件,在媒资数据库中查询是否有与待处理媒资的基础条件相同的标准媒资;A3、有则该条件组为比较范围;没有则按序选择下一条件组,返回步骤A2。3.根据权利要求2所述的媒资数据的自动整合方法,其特征在于,在所述步骤A1中,每个条件组包括根据媒资数据的基本信息生成的基础条件和比较条件、及阀值上限和阀值下限:基础条件用于在海量数据中确定比较范围,比较条件用于计算相似度,阀值上限和阀值下限是相似度上下限的范围取值。4.根据权利要求3所述的媒资数据的自动整合方法,其特征在于,在所述步骤A2中,基础条件为标题和类型时,采用单个字段比较方法,在媒资数据库中查询是否有与该待处理媒资的标题和类型相同的标准媒资。5.根据权利要求3所述的媒资数据的自动整合方法,其特征在于,所述步骤B具体包括:步骤B1、将待处理媒资与比较条件内的各媒资逐一比较;步骤B2、分别计算待处理媒资与各媒资的比较值,根...

【专利技术属性】
技术研发人员:兰晓蒙
申请(专利权)人:TCL集团股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1