【技术实现步骤摘要】
一种内容标签的设置方法、装置及存储介质
本专利技术涉及人工智能领域中的数据处理技术,尤其涉及一种内容标签的设置方法、装置及存储介质。
技术介绍
随着互联网技术的发展,人们可以通过网络浏览或观看各式各样的多媒体内容。目前的多媒体内容网站如视频网站大都采用标签对所提供的多媒体内容进行分类标示。其中,标签是与多媒体内容相关性很强的关键字,利用标签可以对多媒体内容进行简单描述和分类,以便于用户检索或查找感兴趣的多媒体内容。目前,为了给多媒体内容设置标签,一般采用的技术实现方案是:用户根据自身的兴趣和爱好,手动操作给多媒体内容设置标签。然而,由于该方式是依靠用户自身进行标签的手动设置,导致当需要设置标签的多媒体内容数量较大时,工作量较大,效率低下;另外,这种方式太过依赖于用户的个人主观认识,可能不同的用户对同一多媒体内容设置的标签存在个性化差异,因此,若按照某一用户设置的标签来向其他用户进行多媒体内容的推荐,可能会存在比较大的偏差,即该用户设置的标签并非适用于所有人,其设置的标签适用性较低,也即对于面向不同用户的推荐场景而言,采用该方式设置的标签准确性较低。对于如何能够快速、准确地为多媒体内容设置标签,相关技术尚无有效解决方案。
技术实现思路
有鉴于此,本专利技术实施例期望提供一种内容标签的设置方法、装置及存储介质,用以解决相关技术难以有效实现快速、准确地为多媒体内容设置标签的问题。为达到上述目的,本专利技术实施例的技术方案是这样实现的:第一方面,本专利技术实施例提供一种内容标签的设置方法,所述方法包括:获取与多媒体内容相关联的文本信息;对所述文本信息进行分词,以获得各 ...
【技术保护点】
一种内容标签的设置方法,其特征在于,所述方法包括:获取与多媒体内容相关联的文本信息;对所述文本信息进行分词,以获得各分词片段;对所述各分词片段进行聚类,以获得第一聚类结果,其中,所述第一聚类结果包括各聚类类别的由所述分词片段构成的分词片段组;从所述第一聚类结果中提取目标特征词,输入机器学习模型;获取所述机器学习模型输出的各概率值;其中,所述机器学习模型,通过对包括文本信息与标签的对应关系的样本进行语义分析训练得到;所述各概率值分别表示各所述目标特征词分别作为所述文本信息的标签的概率大小;根据所述各概率值,选取符合概率条件的标签,并将所选取的标签与所述多媒体内容相关联。
【技术特征摘要】
1.一种内容标签的设置方法,其特征在于,所述方法包括:获取与多媒体内容相关联的文本信息;对所述文本信息进行分词,以获得各分词片段;对所述各分词片段进行聚类,以获得第一聚类结果,其中,所述第一聚类结果包括各聚类类别的由所述分词片段构成的分词片段组;从所述第一聚类结果中提取目标特征词,输入机器学习模型;获取所述机器学习模型输出的各概率值;其中,所述机器学习模型,通过对包括文本信息与标签的对应关系的样本进行语义分析训练得到;所述各概率值分别表示各所述目标特征词分别作为所述文本信息的标签的概率大小;根据所述各概率值,选取符合概率条件的标签,并将所选取的标签与所述多媒体内容相关联。2.根据权利要求1所述的内容标签的设置方法,其特征在于,在所述对所述各分词片段进行聚类,以获得第一聚类结果之前,所述方法还包括:根据多媒体内容的不同媒体类型,将所述各分词片段归类为各媒体类型的分词片段;所述对所述各分词片段进行聚类,以获得第一聚类结果,包括:对所述各媒体类型的分词片段进行聚类,以获得第一聚类结果。3.根据权利要求1所述的内容标签的设置方法,其特征在于,所述从所述第一聚类结果中提取目标特征词,包括:统计各聚类类别的分词片段组中的各分词片段在所有聚类类别中出现的频率,根据所述频率和各分词片段的权重值,确定各分词片段在所有聚类类别中的重要程度值;从所确定的各重要程度值中选取符合程度条件的重要程度值,根据所选取的重要程度值对应的分词片段,确定目标特征词。4.根据权利要求3所述的内容标签的设置方法,其特征在于,所述根据所选取的重要程度值对应的分词片段,确定目标特征词,包括:根据多媒体内容的不同媒体类型,对所述选取的重要程度值对应的分词片段进行分类,以获得各媒体类型的特征词集合;根据从所述各媒体类型的特征词集合中选取的用于表征所属媒体类型的文本信息的特征词,确定目标特征词。5.根据权利要求4所述的内容标签的设置方法,其特征在于,所述根据从所述各媒体类型的特征词集合中选取的用于表征所属媒体类型的文本信息的特征词,确定目标特征词,包括:从所述各媒体类型的特征词集合中选取用于表征所属媒体类型的文本信息的特征词;基于所选取的特征词对应的特征向量,构建向量空间模型;基于所述向量空间模型,计算各特征向量之间的相似度,根据所述相似度的计算结果对所选取的特征词进行聚类,以获得第二聚类结果,其中,所述第二聚类结果包括各聚类类别的特征词;从所述各聚类类别的特征词中提取目标特征词。6.根据权利要求1所述的内容标签的设置方法,其特征在于,所述对所述文本信息进行分词,以获得各分词片段,包括:对所述文本信息进行分词,获得分词片段集合;根据预设语料库中存储的停用词,从所述分词片段集合中过滤掉所述停用词,将所述分词片段集合中除所述过滤掉的停用词之外的剩余分词片段,作为与所述文本信息对应的分词片段。7.根据权利要求1所述的内容标签的设置方法,其特征在于,在所述根据所述各概率值,选取符合概率条件的标签之后,所述方法还包括:获取修正标签,所述修正标签为用于更新所述机器学习模型输出的与所述文本信息对应的标签;当所述修正标签的数量达到第一预设阈值,和/或所述机器学习模型中进行语义分析训练的训练时间间隔达到第二预设阈值时,基于所述修正标签及所对应的文本信息更新所述机器学习模型,根据更新后的机器学习模型重新确定与所述文本信息对应的标签。8.根据权利要求7所述的内容标签的设置方法,其特征在于,在所述根据所述各概率值,选取符合概率条件的标签之后,所述方法还包括:获取偏好信息;所述偏好信息,用于表征对具有相同标签的各多媒体内容的偏好;根据所述偏好信息,对与所述各多媒体内容相关联的文本信息的标签进行调整;根据所述文本信息以及相应的调整后的标签,更新所述机器学习模型。9.一种内容标签的设置装置,其特征在于,所述装置包括:获取模块、分词模块、聚类模块、提取模块、生成模块和关联模块;其中,所述获取模块,用于获取与多媒体内容相关联的文本信息;所述分词模块,用于对所述文本信息进行分词,以获得各分...
【专利技术属性】
技术研发人员:邹建波,
申请(专利权)人:咪咕互动娱乐有限公司,中国移动通信集团公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。