一种媒资数据的标签匹配方法、装置、介质及设备制造方法及图纸

技术编号:37089226 阅读:15 留言:0更新日期:2023-03-29 20:04
本申请涉及一种媒资数据的标签匹配方法、装置、介质及设备,属于计算机技术领域。本申请能够获取媒资数据和维基数据;其中,所述维基数据至少包括针对所述媒资数据的标签数据;对所述媒资数据和所述维基数据进行正则匹配,得到正则匹配评分;根据所述媒资数据对应的媒资特征向量、和所述维基数据对应的维基特征向量,确定所述媒资数据和所述维基数据之间的拟合评分;对所述正则匹配评分和所述拟合评分进行加权求和,得到综合评分;根据所述综合评分,建立所述媒资数据和所述维基数据之间的匹配关系。由此,能够提高标签匹配的效率以及精准度。度。度。

【技术实现步骤摘要】
一种媒资数据的标签匹配方法、装置、介质及设备


[0001]本申请属于计算机
,具体涉及一种媒资数据的标签匹配方法、装置、介质及设备。

技术介绍

[0002]目前,随着互联网电视业务的发展,智能运营、智能推荐等已成为互联网电视业务开展的重要组成部分。其中,智能运营、智能推荐等互联网电视业务开展需要依赖媒资数据的标签。
[0003]在实践中发现,现在的媒资数据的标签匹配方法需要依赖人工打标签和校准,由于需要打标签的媒资数据的数据量很大,因而这种依赖于人工打标签和校准的标签匹配方法存在着效率低、精准度差的问题。
[0004]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]为此,本申请提供一种媒资数据的标签匹配方法、装置、介质及设备,有助于提高标签匹配的效率以及精准度。
[0006]为实现以上目的,本申请采用如下技术方案:
[0007]第一方面,本申请提供一种媒资数据的标签匹配方法,所述方法包括:
[0008]获取媒资数据和维基数据;其中,所述维基数据至少包括针对所述媒资数据的标签数据;
[0009]对所述媒资数据和所述维基数据进行正则匹配,得到正则匹配评分;
[0010]根据所述媒资数据对应的媒资特征向量、和所述维基数据对应的维基特征向量,确定所述媒资数据和所述维基数据之间的拟合评分;
[0011]对所述正则匹配评分和所述拟合评分进行加权求和,得到综合评分;
[0012]根据所述综合评分,建立所述媒资数据和所述维基数据之间的匹配关系。
[0013]进一步的,对所述媒资数据和所述维基数据进行正则匹配,得到正则匹配评分,包括:
[0014]对所述媒资数据和所述维基数据进行字符处理,得到字符处理后的目标媒资数据和目标维基数据;
[0015]根据所述目标媒资数据和所述目标维基数据的名称一致类别、导演列表重合类别和/或演员列表重合类别,确定所述正则匹配评分;
[0016]其中,所述字符处理至少包括以下一项:特殊字符替换处理、分隔符分割处理;
[0017]其中,所述名称一致类别为名称一致或者名称不一致,所述导演列表重合类别为导演列表重合或者导演列表不重合,所述演员列表重合类别为演员列表重合或者演员列表不重合。
[0018]进一步的,所述方法还包括:
[0019]从所述媒资数据中确定第一媒资名称数据、第一媒资简介数据、第一演员数据以及第一导演数据;
[0020]确定所述第一媒资名称数据和所述第一媒资简介数据对应的第一名称简介特征向量;
[0021]确定所述第一演员数据和所述第一导演数据对应的第一演员导演特征向量;
[0022]对所述第一名称简介特征向量和所述第一演员导演特征向量进行全连接计算,得到所述媒资特征向量。
[0023]进一步的,确定所述第一媒资名称数据和所述第一媒资简介数据对应的第一名称简介特征向量,包括:
[0024]对所述第一媒资名称数据和所述第一媒资简介数据进行分词处理,得到名称字段和简介字段;
[0025]生成与所述名称字段对应的第一嵌入矩阵,以及与所述简介字段对应的第二嵌入矩阵;
[0026]按照预定义尺寸的卷积核对所述第一嵌入矩阵进行卷积运算,得到第一特征图;以及,按照预定义尺寸的卷积核对所述第二嵌入矩阵进行卷积运算,得到第二特征图;
[0027]对所述第一特征图进行最大池化处理,得到第一池化向量;以及,对所述第二特征图进行最大池化处理,得到第二池化向量;
[0028]利用随机失活函数对所述第一池化向量进行正则化处理,得到名称特征向量;以及,利用随机失活函数对所述第二池化向量进行正则化处理,得到简介特征向量;
[0029]对所述名称特征向量和所述简介特征向量进行全连接计算,得到所述第一名称简介特征向量。
[0030]进一步的,确定所述第一演员数据和所述第一导演数据对应的第一演员导演特征向量,包括:
[0031]对所述第一演员数据进行分割,得到演员列表;以及,对所述第一导演数据进行分割,得到导演列表;
[0032]对所述演员列表和所述导演列表进行预处理,得到目标演员列表和目标导演列表;其中,所述预处理至少包括分隔符分割处理;
[0033]生成与所述目标演员列表对应的第三嵌入矩阵,以及与所述目标导演列表对应的第四嵌入矩阵;
[0034]基于所述第三嵌入矩阵,确定与所述第一演员数据相匹配的演员特征向量;以及,基于所述第四嵌入矩阵,确定与所述第一导演数据相匹配的导演特征向量;
[0035]将所述演员特征向量和所述导演特征向量进行全连接计算,得到所述第一演员导演特征向量。
[0036]进一步的,所述方法还包括:
[0037]从所述维基数据中确定第二媒资名称数据、第二媒资简介数据、第二演员数据以及第二导演数据;
[0038]确定所述第二媒资名称数据和所述第二媒资简介数据对应的第二名称简介特征向量;
[0039]确定所述第二演员数据和所述第二导演数据对应的第二演员导演特征向量;
[0040]对所述第二名称简介特征向量和所述第二演员导演特征向量进行全连接计算,得到所述维基特征向量。
[0041]进一步的,所述方法还包括:
[0042]基于所述匹配关系,向用户智能推荐所述媒资数据。
[0043]第二方面,本申请提供一种媒资数据的标签匹配装置,所述装置包括:
[0044]数据获取单元,用于获取媒资数据和维基数据;其中,所述维基数据至少包括针对所述媒资数据的标签数据;
[0045]正则匹配单元,用于对所述媒资数据和所述维基数据进行正则匹配,得到正则匹配评分;
[0046]拟合单元,用于根据所述媒资数据对应的媒资特征向量、和所述维基数据对应的维基特征向量,确定所述媒资数据和所述维基数据之间的拟合评分;
[0047]评分单元,用于对所述正则匹配评分和所述拟合评分进行加权求和,得到综合评分;
[0048]匹配单元,用于根据所述综合评分,建立所述媒资数据和所述维基数据之间的匹配关系。
[0049]进一步的,正则匹配单元具体用于:
[0050]对所述媒资数据和所述维基数据进行字符处理,得到字符处理后的目标媒资数据和目标维基数据;
[0051]根据所述目标媒资数据和所述目标维基数据的名称一致类别、导演列表重合类别和/或演员列表重合类别,确定所述正则匹配评分;
[0052]其中,所述字符处理至少包括以下一项:特殊字符替换处理、分隔符分割处理;
[0053]其中,所述名称一致类别为名称一致或者名称不一致,所述导演列表重合类别为导演列表重合或者导演列表不重合,所述演员列表重合类别为演员列表重合或者演员列表不重合。
[0054]进一步的,所述装置还包括:
[0055]向量确定单元,用于从所述媒资数据中确定第一媒资名称数据、第一媒资简介本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种媒资数据的标签匹配方法,其特征在于,所述方法包括:获取媒资数据和维基数据;其中,所述维基数据至少包括针对所述媒资数据的标签数据;对所述媒资数据和所述维基数据进行正则匹配,得到正则匹配评分;根据所述媒资数据对应的媒资特征向量、和所述维基数据对应的维基特征向量,确定所述媒资数据和所述维基数据之间的拟合评分;对所述正则匹配评分和所述拟合评分进行加权求和,得到综合评分;根据所述综合评分,建立所述媒资数据和所述维基数据之间的匹配关系。2.根据权利要求1所述的方法,其特征在于,对所述媒资数据和所述维基数据进行正则匹配,得到正则匹配评分,包括:对所述媒资数据和所述维基数据进行字符处理,得到字符处理后的目标媒资数据和目标维基数据;根据所述目标媒资数据和所述目标维基数据的名称一致类别、导演列表重合类别和/或演员列表重合类别,确定所述正则匹配评分;其中,所述字符处理至少包括以下一项:特殊字符替换处理、分隔符分割处理;其中,所述名称一致类别为名称一致或者名称不一致,所述导演列表重合类别为导演列表重合或者导演列表不重合,所述演员列表重合类别为演员列表重合或者演员列表不重合。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:从所述媒资数据中确定第一媒资名称数据、第一媒资简介数据、第一演员数据以及第一导演数据;确定所述第一媒资名称数据和所述第一媒资简介数据对应的第一名称简介特征向量;确定所述第一演员数据和所述第一导演数据对应的第一演员导演特征向量;对所述第一名称简介特征向量和所述第一演员导演特征向量进行全连接计算,得到所述媒资特征向量。4.根据权利要求3所述的方法,其特征在于,确定所述第一媒资名称数据和所述第一媒资简介数据对应的第一名称简介特征向量,包括:对所述第一媒资名称数据和所述第一媒资简介数据进行分词处理,得到名称字段和简介字段;生成与所述名称字段对应的第一嵌入矩阵,以及与所述简介字段对应的第二嵌入矩阵;按照预定义尺寸的卷积核对所述第一嵌入矩阵进行卷积运算,得到第一特征图;以及,按照预定义尺寸的卷积核对所述第二嵌入矩阵进行卷积运算,得到第二特征图;对所述第一特征图进行最大池化处理,得到第一池化向量;以及,对所述第二特征图进行最大池化处理,得到第二池化向量;利用随机失活函数对所述第一池化向量进行正则化处理,得到名称特征向量;以及,利用随机失活函数对所述第二池化向量进行正则化处理,得到简介特征向量;对所述名称特征向量和所述简介特征向量进行全连接计算,得到所述第一名称简介...

【专利技术属性】
技术研发人员:孟金波
申请(专利权)人:广州欢网科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1