媒资表征方法、装置和电子设备制造方法及图纸

技术编号:39838939 阅读:9 留言:0更新日期:2023-12-29 16:25
本公开涉及媒资表征方法、装置和电子设备。包括:构建多个媒资标识对应的多条数据;将多个媒资标识分别输入媒资实体编码模型得到多个媒资标识对应的多个媒资向量,媒资实体编码模型是基于媒资知识图谱训练得到的;基于多个媒资向量对多条数据进行初始化,以将每个目标文本信息中的媒资标识替换为对应的媒资向量得到多个训练样本数据;构建任务预测模型,包括深层语义编码模型和与深层语义编码模型连接的目标任务模型;基于训练样本数据对任务预测模型进行训练得到训练好的深层语义编码模型;将多个媒资标识分别输入训练好的深层语义编码模型得到各个媒资标识对应的媒资表征向量。本方案能够提高媒资表征向量所包含的语义的深度。义的深度。义的深度。

【技术实现步骤摘要】
媒资表征方法、装置和电子设备


[0001]本申请实施例涉及自然语言处理技术。更具体地讲,涉及一种媒资表征方法、装置和电子设备。

技术介绍

[0002]目前,各种推荐系统可以根据用户兴趣、历史行为、大数据等为用户推荐美食、影片、物品等。对于影视资源推荐,有基于用户观影行为的推荐方法,也有基于媒资内容的推荐方法。
[0003]对于基于媒资内容的推荐方法,需要先充分结合媒资信息获得媒资表征向量,然后在基于媒资表征向量进行媒资推荐。目标包括基于媒资知识图谱构建的媒资实体编码模型,对媒资进行表征,得到媒资表征向量的方案,而媒资知识图谱通常是基于媒资的标签信息、媒资属性、时效信息等媒资信息组成的实体三元组构建的。
[0004]由于,媒资的标签信息、媒资属性、时效信息等媒资信息是有限(特征的集合是封闭的)的、不可分(能独立表示一个具体的意义)的,因此媒资知识图谱可以融合的媒资信息的视野较窄,知识广度不够,导致得到的媒资表征向量不能包含更深度的语义,从而影响后续使用该媒资表征向量进行媒资推荐。

技术实现思路

[0005]为了解决上述技术问题或者至少部分的解决上述技术问题,本申请提供了一种媒资表征方法、装置和电子设备,通过结合知识图谱和文本信息对媒资进行表征,可以提高媒资表征向量所包含的语义的深度,进而可以提高媒资推荐的准确度。
[0006]第一方面,本申请实施例提供了一种媒资表征方法,包括:构建多个媒资标识对应的多条数据,每条数据包括:媒资标识,关系,至少一个对象标识,目标文本信息;对象标识指示的对象与对应的媒资标识指示的媒资满足关系,目标文本信息为对应的媒资的文本信息,目标文本信息包括媒资标识和对应的至少一个对象标识中的目标对象标识;将多个媒资标识分别输入媒资实体编码模型,得到多个媒资标识对应的多个媒资向量,媒资实体编码模型是基于媒资知识图谱训练得到的;基于多个媒资向量,对多条数据进行初始化,以将每个目标文本信息中的媒资标识替换为对应的媒资向量,得到多个训练样本数据;构建任务预测模型,任务预测模型包括深层语义编码模型和与深层语义编码模型连接的目标任务模型,目标任务模型用于根据目标文本信息预测关系,和/或,至少一个对象标识;基于训练样本数据对任务预测模型进行训练,以当任务预测模型的预测准确率大于或等于准确率阈值时得到训练好的深层语义编码模型;将多个媒资标识分别输入训练好的深层语义编码模型,得到各个媒资标识对应的媒资表征向量。
[0007]本申请一些实施例中,基于多个媒资向量,对多条数据进行初始化,以将每个目标文本信息中的媒资标识替换为对应的媒资向量,得到多个训练样本数据,包括:基于多个媒资向量,对多个媒资向量添加扰动,得到添加扰动后的多个媒资向量,扰动为从标准正态分
布中进行采样得到的;基于添加扰动后的多个媒资向量,对多条数据进行初始化,以将每个目标文本信息中的媒资标识替换为对应的添加扰动后的媒资向量,得到多个训练样本数据。
[0008]本申请一些实施例中,目标任务模型为多标签分类任务模型,多标签分类任务模型用于预测掩码对应的对象标识,在对任务预测模型进行训练时,将目标文本信息包括的对象标识用掩码表示;和/或,目标任务模型为多分类任务模型,多分类任务模型用于预测目标文本信息中媒资标识对应的媒资与对象标识对应的对象的关系。
[0009]本申请一些实施例中,目标任务模型为多标签分类任务模型;基于训练样本数据对任务预测模型进行训练,包括:基于训练样本数据,根据第一损失函数对任务预测模型进行训练。
[0010]本申请一些实施例中,目标任务模型为多分类任务模型;基于训练样本数据对任务预测模型进行训练,包括:基于训练样本数据,根据第二损失函数对任务预测模型进行训练。
[0011]本申请一些实施例中,目标任务模型为多标签分类任务模型和多分类任务模型;基于训练样本数据对任务预测模型进行训练,包括:基于训练样本数据,根据目标损失函数对任务预测模型进行训练,目标损失函数为融合第一损失函数和第二损失函数得到的。
[0012]本申请一些实施例中,将多个媒资标识分别输入训练好的深层语义编码模型,得到各个媒资标识对应的媒资表征向量之后,该方法还包括:基于多个媒资标识对应的媒资表征向量,确定目标媒资标识对应的至少一个待推荐媒资标识,每个待推荐媒资标识对应的媒资表征向量和目标媒资标识对应的媒资表征向量之间的相似度小于或等于相似度阈值,多个媒资标识包括至少一个待推荐媒资标识和目标媒资标识。
[0013]第二方面,本申请提供了一种媒资表征装置,该装置包括:构建模块,用于构建多个媒资标识对应的多条数据,每条数据包括:媒资标识,关系,至少一个对象标识,目标文本信息;对象标识指示的对象与对应的媒资标识指示的媒资满足关系,目标文本信息为对应的媒资的文本信息,目标文本信息包括媒资标识和对应的至少一个对象标识中的目标对象标识;输入模块,用于将多个媒资标识分别输入媒资实体编码模型,得到多个媒资标识对应的多个媒资向量,媒资实体编码模型是基于媒资知识图谱训练得到的;初始化模块,用于基于多个媒资向量,对多条数据进行初始化,以将每个目标文本信息中的媒资标识替换为对应的媒资向量,得到多个训练样本数据;构建模块,还用于构建任务预测模型,任务预测模型包括深层语义编码模型和与深层语义编码模型连接的目标任务模型,目标任务模型用于根据目标文本信息预测关系,和/或,至少一个对象标识;训练模块,用于基于训练样本数据对任务预测模型进行训练,以当任务预测模型的预测准确率大于或等于准确率阈值时得到训练好的深层语义编码模型;输入模块,还用于将多个媒资标识分别输入训练好的深层语义编码模型,得到各个媒资标识对应的媒资表征向量。
[0014]第三方面,本申请提供了一种电子设备,包括:存储器和处理器,存储器用于存储计算机程序;处理器用于在调用计算机程序时如第一方面所述的媒资表征方法。
[0015]第四方面,本申请提供了一种计算机可读存储介质,包括:计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如第一方面所示的媒资表征方法。
[0016]第五方面,本申请提供了一种计算机程序产品,包括:当计算机程序产品在计算机
上运行时,使得计算机实现如第一方面所示的媒资表征方法。
[0017]本申请实施例提供的技术方案与现有技术相比具有如下优点:本申请实施例中,构建多个媒资标识对应的多条数据,每条数据包括:媒资标识,关系,至少一个对象标识,目标文本信息;对象标识指示的对象与对应的媒资标识指示的媒资满足关系,目标文本信息为对应的媒资的文本信息,目标文本信息包括媒资标识和对应的至少一个对象标识中的目标对象标识;将多个媒资标识分别输入媒资实体编码模型,得到多个媒资标识对应的多个媒资向量,媒资实体编码模型是基于媒资知识图谱训练得到的;基于多个媒资向量,对多条数据进行初始化,以将每个目标文本信息中的媒资标识替换为对应的媒资向量,得到多个训练样本数据;构建任务预测模型,任务预测模型包括深层语义编码模型和与深层语义编码模型连本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种媒资表征方法,其特征在于,包括:构建多个媒资标识对应的多条数据,每条数据包括:媒资标识,关系,至少一个对象标识,目标文本信息;所述对象标识指示的对象与对应的所述媒资标识指示的媒资满足所述关系,所述目标文本信息为对应的媒资的文本信息,所述目标文本信息包括所述媒资标识和对应的所述至少一个对象标识中的目标对象标识;将所述多个媒资标识分别输入媒资实体编码模型,得到所述多个媒资标识对应的多个媒资向量,所述媒资实体编码模型是基于媒资知识图谱训练得到的;基于所述多个媒资向量,对所述多条数据进行初始化,以将每个目标文本信息中的媒资标识替换为对应的媒资向量,得到多个训练样本数据;构建任务预测模型,所述任务预测模型包括深层语义编码模型和与所述深层语义编码模型连接的目标任务模型,所述目标任务模型用于根据所述目标文本信息预测所述关系,和/或,所述至少一个对象标识;基于所述训练样本数据对所述任务预测模型进行训练,以当所述任务预测模型的预测准确率大于或等于准确率阈值时得到训练好的深层语义编码模型;将所述多个媒资标识分别输入所述训练好的深层语义编码模型,得到各个媒资标识对应的媒资表征向量。2.根据权利要求1所述的方法,其特征在于,所述基于所述多个媒资向量,对所述多条数据进行初始化,以将每个目标文本信息中的媒资标识替换为对应的媒资向量,得到多个训练样本数据,包括:基于所述多个媒资向量,对所述多个媒资向量添加扰动,得到添加扰动后的多个媒资向量,所述扰动为从标准正态分布中进行采样得到的;基于所述添加扰动后的多个媒资向量,对所述多条数据进行初始化,以将所述每个目标文本信息中的媒资标识替换为对应的添加扰动后的媒资向量,得到多个训练样本数据。3.根据权利要求1或2所述的方法,其特征在于,所述目标任务模型为多标签分类任务模型,所述多标签分类任务模型用于预测掩码对应的对象标识,在对所述任务预测模型进行训练时,将所述目标文本信息包括的所述对象标识用所述掩码表示;和/或,所述目标任务模型为多分类任务模型,所述多分类任务模型用于预测所述目标文本信息中所述媒资标识对应的媒资与所述对象标识对应的对象的关系。4.根据权利要求3所述的方法,其特征在于,所述目标任务模型为多标签分类任务模型;所述基于所述训练样本数据对所述任务预测模型进行训练,包括:基于所述训练样本数据,根据第一损失函数对所述任务预测模型进行训练。5.根据权利要求3所述的方法,其特征在于,所述目标任务模型为多分类任务模型;所述基于所述训练样本数据对所述任务预测模型进行训练,包括:基于所述训练样本数据,根据第二损失函数对所述任务预测模型进行训练。6.根据权利要求3所述的方法,其特征在于,所述目标任务模型为多标签分类任务模型和多分...

【专利技术属性】
技术研发人员:车进张凯黄山山韩洁
申请(专利权)人:聚好看科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1