一种基于多维信息的正片媒资实体融合方法及系统技术方案

技术编号：37081624 阅读：26 留言：0更新日期：2023-03-29 19:57

本发明专利技术涉及媒资融合技术领域，且公开了一种基于多维信息的正片媒资实体融合方法及系统，通过对正片媒资的数据获取、预处理、解析、融合、储存等步骤来完成多源的同一正片媒资的实体融合。首先获取正片媒资排除噪声视频的影响，然后对媒资名字段进行预处理排除噪声词带来的干扰；其次通过分析各类型媒资名字段的表现形式，获取正则化匹配模式，同时对媒资名字段进行解析，通过打分选取解析最佳结果，并对如语言、季数等字段进行归一化；最后通过最佳解析结果获取正片媒资对应的数据实体信息，再结合其他字段信息设置融合策略，进而对各类型正片媒资进行实体融合，融合后对结果进行存储以供使用。以供使用。以供使用。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多维信息的正片媒资实体融合方法及系统

[0001]本专利技术涉及媒资融合
，具体为一种基于多维信息的正片媒资实体融合方法及系统。

技术介绍

[0002]当前影视领域正片媒资层出不穷，这些正片媒资有可能来源于不同的视频厂商，而同一部正片媒资可能由于来源厂商不同，导致其对应的视频名称或者字段上有差异，这会影响用户搜索体验。针对这一问题，有通过人工梳理、视频统一管理的方式来进行正片媒资的融合确认，这样可能达到了很高的精确度，但是耗费人工，影响效率；也有通过模型建模的方式进行相似度计算，再进行融合，但精确度难以保证。

技术实现思路

[0003]本专利技术主要是提供一种基于多维信息的正片媒资实体融合方法及系统，解决现有技术中通过人工融合有浪费人工，效率不高，以及通过模型建模融合有精度难以保证的问题。
[0004]为了解决上述技术问题，本专利技术采用如下技术方案：
[0005]一种基于多维信息的正片媒资实体融合方法，包括：
[0006]采集正片媒资；
[0007]对所述正片媒...

【技术保护点】

【技术特征摘要】
1.一种基于多维信息的正片媒资实体融合方法，其特征在于，包括：采集正片媒资；对所述正片媒资的媒资名字段进行预处理；针对确定类型的所述正片媒资，通过预先定义的正则化匹配模式对预处理后的所述媒资名字段进行解析，并选取最佳解析结果对应的数据实体信息；对描述同一所述正片媒资的多条所述数据实体信息进行实体融合，并生成融合数据表；将融合数据表进行储存。2.根据权利要求1所述的方法，其特征在于，所述采集正片媒资，包括：基于原始数据库通过规则过滤筛选正片媒资；并将筛选出的所述正片媒资储存于正片媒资数据库。3.根据权利要求1所述的方法，其特征在于，所述对所述正片媒资的媒资名字段进行预处理，包括：基于过滤词表对所述正片媒资的媒资名字段进行判断；若所述媒资名字段中包含的片段属于所述过滤词表中包含的噪声词，则删除所述媒资名字段中包含的噪声词。4.根据权利要求1所述的方法，其特征在于，所述针对确定类型的所述正片媒资，通过预先定义的正则化匹配模式对预处理后的所述媒资名字段进行解析，并选取最佳解析结果对应的数据实体信息，包括：对所述正片媒资进行语言版本解析；针对确定类型的所述正片媒资，通过预先定义的正则化匹配模式对预处理后的所述媒资名字段进行组成结构的解析；基于预先对不同结构赋予的分数对解析出的多条解析结果的组成结构进行打分，选取分数最高的作为最佳解析结果；基于所述最佳解析结果获取对应的数据实体信息。5.根据权利要求4所述的方法，其特征在于，所述对描述同一所述正片媒资的多条所述数据实体信息进行实体融合，并生成融合数据表，包括：对相同主题且类型一致的多条所述数据...

【专利技术属性】
技术研发人员：王嘉诚，田灯友，
申请(专利权)人：重庆市易平方科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人