【技术实现步骤摘要】
一种基于多维信息的正片媒资实体融合方法及系统
[0001]本专利技术涉及媒资融合
,具体为一种基于多维信息的正片媒资实体融合方法及系统。
技术介绍
[0002]当前影视领域正片媒资层出不穷,这些正片媒资有可能来源于不同的视频厂商,而同一部正片媒资可能由于来源厂商不同,导致其对应的视频名称或者字段上有差异,这会影响用户搜索体验。针对这一问题,有通过人工梳理、视频统一管理的方式来进行正片媒资的融合确认,这样可能达到了很高的精确度,但是耗费人工,影响效率;也有通过模型建模的方式进行相似度计算,再进行融合,但精确度难以保证。
技术实现思路
[0003]本专利技术主要是提供一种基于多维信息的正片媒资实体融合方法及系统,解决现有技术中通过人工融合有浪费人工,效率不高,以及通过模型建模融合有精度难以保证的问题。
[0004]为了解决上述技术问题,本专利技术采用如下技术方案:
[0005]一种基于多维信息的正片媒资实体融合方法,包括:
[0006]采集正片媒资;
[0007]对所述正片媒 ...
【技术保护点】
【技术特征摘要】
1.一种基于多维信息的正片媒资实体融合方法,其特征在于,包括:采集正片媒资;对所述正片媒资的媒资名字段进行预处理;针对确定类型的所述正片媒资,通过预先定义的正则化匹配模式对预处理后的所述媒资名字段进行解析,并选取最佳解析结果对应的数据实体信息;对描述同一所述正片媒资的多条所述数据实体信息进行实体融合,并生成融合数据表;将融合数据表进行储存。2.根据权利要求1所述的方法,其特征在于,所述采集正片媒资,包括:基于原始数据库通过规则过滤筛选正片媒资;并将筛选出的所述正片媒资储存于正片媒资数据库。3.根据权利要求1所述的方法,其特征在于,所述对所述正片媒资的媒资名字段进行预处理,包括:基于过滤词表对所述正片媒资的媒资名字段进行判断;若所述媒资名字段中包含的片段属于所述过滤词表中包含的噪声词,则删除所述媒资名字段中包含的噪声词。4.根据权利要求1所述的方法,其特征在于,所述针对确定类型的所述正片媒资,通过预先定义的正则化匹配模式对预处理后的所述媒资名字段进行解析,并选取最佳解析结果对应的数据实体信息,包括:对所述正片媒资进行语言版本解析;针对确定类型的所述正片媒资,通过预先定义的正则化匹配模式对预处理后的所述媒资名字段进行组成结构的解析;基于预先对不同结构赋予的分数对解析出的多条解析结果的组成结构进行打分,选取分数最高的作为最佳解析结果;基于所述最佳解析结果获取对应的数据实体信息。5.根据权利要求4所述的方法,其特征在于,所述对描述同一所述正片媒资的多条所述数据实体信息进行实体融合,并生成融合数据表,包括:对相同主题且类型一致的多条所述数据...
【专利技术属性】
技术研发人员:王嘉诚,田灯友,
申请(专利权)人:重庆市易平方科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。