【技术实现步骤摘要】
用于声音排序的多模态模型训练方法、系统及相关设备
[0001]本专利技术属于人工智能技术应用领域,尤其涉及一种用于声音排序的多模态模型训练方法、系统及相关设备。
技术介绍
[0002]在可以使用移动互联网获取信息的智能终端普及大众的当下,音视频类的应用程序成为人们工作和生活的一部分,利用智能终端,人们可以随心所欲地拍摄和编辑音视频信息,并通过音视频类应用程序分享给他人。由于音视频类应用本身具有的娱乐和公开属性,其同时带来了强大的社交风向和流量,利用优质的音视频内容吸引用户、为自媒体用户积攒人气成为了一种新的研究方向。
[0003]在当前的音视频类应用中,用户在使用时会按照一定的规则和关注度被推送音视频,其中,为了更加显著地将不同音视频的内容按照优先度进行推送、以达到优化用户体验的效果,需要大量的数据作为分析的基础。从算法推荐的角度,LR(Logistic regression)模型可以实现依据内容的特征进行自动排序,但LR模型是一个线性模型,学习能力弱,不能学习高维特征,使得LR模型应用时需要大量的人工特征工程,依赖 ...
【技术保护点】
【技术特征摘要】
1.一种用于声音排序的多模态模型训练方法,其特征在于,所述方法包括以下步骤:获取用于声音排序的声音平台数据,所述声音平台数据包括声音ID信息、声音标签、声音关键词、主播ID信息、播放序列数据,所述播放序列数据中包括声音的声音点击时间信息、声音时长信息;根据所述播放队列数据抽取数据节;对所述数据节进行扩充,得到频繁子图,并根据所述频繁子图构建包含所述平台数据的数据样本;将所述数据样本输入word2vec模型,得到所述数据样本对应的映射数据;构建多模态声音排序模型,并根据所述平台数据、所述数据样本、所述映射数据对所述多模态声音排序模型进行训练,将完成训练的所述多模态声音排序模型输出。2.如权利要求1所述的多模态模型训练方法,其特征在于,所述根据所述播放队列数据抽取数据节的步骤,具体为:将所述播放队列数据中任意连续两个所述声音的所述声音点击时间信息的间隔不大于20分钟、且任一所述声音的声音时长信息不少于20秒的队列片段作为一个所述数据节。3.如权利要求1所述的多模态模型训练方法,其特征在于,对所述数据节进行扩充,得到频繁子图,并根据所述频繁子图构建包含所述平台数据的数据样本的步骤,具体为:对所述数据节进行频繁子图挖掘,得到所述数据节对应的多个所述频繁子图,将多个所述频繁子图结合所述声音平台数据构建包含所述频繁子图中所有所述声音的所述声音ID信息、所述声音标签、所述声音关键词、所述主播ID信息的所述数据样本。4.如权利要求3所述的多模态模型训练方法,其特征在于,将所述数据样本输入word2vec模型,得到所述数据样本对应的映射数据的步骤中,获取所述声音关键词的所述映射数据的位置在所述声音ID信息之前。5.如权利要求1所述的多模态模型训练方法,其特征在于,所述多模态声音排序模型包括第一输入端、第二输入端、Dense主干网络,其中,所述第一输入端用于将所述数据样本先后经过预训练、最大池化、concatenate函数、激活函数处理得到第一文本融合特征,所述第二输入端用于将所述数据样本先后经过o...
【专利技术属性】
技术研发人员:谭又伟,丁宁,
申请(专利权)人:广州欢聊网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。