一种内容标签的设置方法、装置及存储介质制造方法及图纸

技术编号:17912498 阅读:49 留言:0更新日期:2018-05-10 18:19
本发明专利技术公开了一种内容标签的设置方法,包括:获取与多媒体内容相关联的文本信息;对文本信息进行分词,以获得各分词片段;对各分词片段进行聚类,以获得第一聚类结果,其中第一聚类结果包括各聚类类别的由分词片段构成的分词片段组;从第一聚类结果中提取目标特征词,输入机器学习模型;获取机器学习模型输出的各概率值;其中,机器学习模型,通过对包括文本信息与标签的对应关系的样本进行语义分析训练得到;各概率值分别表示各目标特征词分别作为文本信息的标签的概率大小;根据各概率值,选取符合概率条件的标签,将所选取的标签与多媒体内容相关联。本发明专利技术还同时公开了一种内容标签的设置装置、以及存储介质。

【技术实现步骤摘要】
一种内容标签的设置方法、装置及存储介质
本专利技术涉及人工智能领域中的数据处理技术,尤其涉及一种内容标签的设置方法、装置及存储介质。
技术介绍
随着互联网技术的发展,人们可以通过网络浏览或观看各式各样的多媒体内容。目前的多媒体内容网站如视频网站大都采用标签对所提供的多媒体内容进行分类标示。其中,标签是与多媒体内容相关性很强的关键字,利用标签可以对多媒体内容进行简单描述和分类,以便于用户检索或查找感兴趣的多媒体内容。目前,为了给多媒体内容设置标签,一般采用的技术实现方案是:用户根据自身的兴趣和爱好,手动操作给多媒体内容设置标签。然而,由于该方式是依靠用户自身进行标签的手动设置,导致当需要设置标签的多媒体内容数量较大时,工作量较大,效率低下;另外,这种方式太过依赖于用户的个人主观认识,可能不同的用户对同一多媒体内容设置的标签存在个性化差异,因此,若按照某一用户设置的标签来向其他用户进行多媒体内容的推荐,可能会存在比较大的偏差,即该用户设置的标签并非适用于所有人,其设置的标签适用性较低,也即对于面向不同用户的推荐场景而言,采用该方式设置的标签准确性较低。对于如何能够快速、准确地为多媒体内容设置标签,相关技术尚无有效解决方案。
技术实现思路
有鉴于此,本专利技术实施例期望提供一种内容标签的设置方法、装置及存储介质,用以解决相关技术难以有效实现快速、准确地为多媒体内容设置标签的问题。为达到上述目的,本专利技术实施例的技术方案是这样实现的:第一方面,本专利技术实施例提供一种内容标签的设置方法,所述方法包括:获取与多媒体内容相关联的文本信息;对所述文本信息进行分词,以获得各分词片段;对所述各分词片段进行聚类,以获得第一聚类结果,其中,所述第一聚类结果包括各聚类类别的由所述分词片段构成的分词片段组;从所述第一聚类结果中提取目标特征词,输入机器学习模型;获取所述机器学习模型输出的各概率值;其中,所述机器学习模型,通过对包括文本信息与标签的对应关系的样本进行语义分析训练得到;所述各概率值分别表示各所述目标特征词分别作为所述文本信息的标签的概率大小;根据所述各概率值,选取符合概率条件的标签,并将所选取的标签与所述多媒体内容相关联。第二方面,本专利技术实施例提供一种内容标签的设置装置,所述装置包括:获取模块、分词模块、聚类模块、提取模块、生成模块和关联模块;其中,所述获取模块,用于获取与多媒体内容相关联的文本信息;所述分词模块,用于对所述文本信息进行分词,以获得各分词片段;所述聚类模块,用于对所述各分词片段进行聚类,以获得第一聚类结果,其中,所述第一聚类结果包括各聚类类别的由所述分词片段构成的分词片段组;所述提取模块,用于从所述第一聚类结果中提取目标特征词,输入机器学习模型;所述获取模块,还用于获取所述机器学习模型输出的各概率值;其中,所述机器学习模型,通过对包括文本信息与标签的对应关系的样本进行语义分析训练得到;所述各概率值分别表示各所述目标特征词分别作为所述文本信息的标签的概率大小;所述生成模块,用于根据所述各概率值,选取符合概率条件的标签;所述关联模块,用于将所选取的标签与所述多媒体内容相关联。第三方面,本专利技术实施例提供一种存储介质,其上存储有可执行程序,所述可执行程序被处理器执行时实现本专利技术实施例提供的内容标签的设置方法的步骤。第四方面,本专利技术实施例提供一种内容标签的设置装置,包括存储器、处理器及存储在存储器上并能够由所述处理器运行的可执行程序,所述处理器运行所述可执行程序时执行本专利技术实施例提供的内容标签的设置方法的步骤。采用本专利技术实施例所提供的以上至少一个技术方案,由于可以自动对与多媒体内容相关联的文本信息进行分词、聚类等分析处理后获得第一聚类结果,将从第一聚类结果中提取到的目标特征词输入机器学习模型,以获得各概率值,根据各概率值,选取符合概率条件的标签,并将选取的标签与多媒体内容相关联,以实现为多媒体内容设置标签的目的。如此,避免了人工设置标签的主观影响,不仅能够快速、准确地为多媒体内容自动化设置标签,而且本专利技术实施例为多媒体内容设置的标签与用户自身的兴趣和爱好无关,仅与多媒体内容相关联的文本信息相关,因此,所设置的标签更加贴合不同用户的需求,大大提升了用户的使用体验。附图说明图1为本专利技术实施例提供的一种内容标签的设置方法的实现流程示意图;图2为本专利技术实施例提供的一种内容标签的设置装置的功能结构示意图;图3为本专利技术实施例提供的另一种内容标签的设置装置的功能结构示意图;图4为本专利技术实施例提供的一种内容标签的设置装置的硬件结构示意图。具体实施方式为了能够更加详尽地了解本专利技术实施例的特点与
技术实现思路
,下面结合附图对本专利技术实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本专利技术。对本专利技术实施例进行进一步详细说明之前,对本专利技术实施例中涉及的名词和术语进行说明,本专利技术实施例中涉及的名词和术语适用于如下的解释。1)分词,又称为切词,是指按照一定的分词策略将文本信息中的字符分割为单独的词。2)停用词,是指可从文本信息中过滤的、对文本信息的分类决策不会产生影响的词;通常停用词不具有明确的意义(只有将其放入一个完整的句子中才有一定作用),例如,代词、冠词、数词、语气助词、副词、介词和连词等功能词。3)目标特征词,是指对文本信息进行分词并过滤掉停用词后,从剩余的词中提取得到的可以表示与文本信息相关联的多媒体内容的词。4)向量空间模型,是指将从各媒体类型的特征词集合中提取的多个特征词映射成相应的词向量,并进行组合得到的特征空间向量。图1为本专利技术实施例提供的一种内容标签的设置方法的实现流程示意图,所述内容标签的设置方法应用于终端设备;如图1所示,本专利技术实施例中的内容标签的设置方法的实现流程,可以包括以下步骤:步骤101:获取与多媒体内容相关联的文本信息。在本专利技术实施例中,所述终端设备可以包括但不限于智能手机、平板电脑、掌上电脑等计算机设备。所述多媒体内容可以包括但不限于视频内容如图像、音频内容如音乐、文本内容如小说等多种媒体形式。这里所说的多媒体内容可通过以下至少一种方式获取,例如:多媒体内容可以是由用户上传的一个图像、图片或一首歌曲,也可以是从特定网站如视频网站收录并采集得到的一条视频等。这里,与多媒体内容相关联的文本信息,是指用于表示多媒体内容的相关信息,如内容的名称、简介、作者、类型等信息。步骤102:对所述文本信息进行分词,以获得各分词片段。本实施例中,计算机设备调用分词服务将所有的文本信息做分词处理,得到与文本信息对应的多个分词。这里所说的分词处理,可以理解为采用分词器将一个文本信息构成的文本序列分割为一个个独立的分词片段的过程,具体地,可以根据中文词语的构成特征,以及英文单词和英文短语的特点,采用已有的或新的分词方式对文本信息进行词语切分,将连续的文本字符串切分为若干个分词片段。例如,若文本信息的内容为“今天的天气太热了”,则将该文本信息的内容进行分词后所获得的分词片段分别为“今天”、“的”、“天气”、“太”、“热”和“了”。这里,对于中文表述的文本信息来说,可以采用字符串匹配的分词方法进行分词处理,比如正向最大匹配法、反向最大匹配法、N-元语法、最短路径分词法、改进的最大匹配法以及双向最大匹配法等。其中,正向最大匹配法是指本文档来自技高网
...
一种内容标签的设置方法、装置及存储介质

【技术保护点】
一种内容标签的设置方法,其特征在于,所述方法包括:获取与多媒体内容相关联的文本信息;对所述文本信息进行分词,以获得各分词片段;对所述各分词片段进行聚类,以获得第一聚类结果,其中,所述第一聚类结果包括各聚类类别的由所述分词片段构成的分词片段组;从所述第一聚类结果中提取目标特征词,输入机器学习模型;获取所述机器学习模型输出的各概率值;其中,所述机器学习模型,通过对包括文本信息与标签的对应关系的样本进行语义分析训练得到;所述各概率值分别表示各所述目标特征词分别作为所述文本信息的标签的概率大小;根据所述各概率值,选取符合概率条件的标签,并将所选取的标签与所述多媒体内容相关联。

【技术特征摘要】
1.一种内容标签的设置方法,其特征在于,所述方法包括:获取与多媒体内容相关联的文本信息;对所述文本信息进行分词,以获得各分词片段;对所述各分词片段进行聚类,以获得第一聚类结果,其中,所述第一聚类结果包括各聚类类别的由所述分词片段构成的分词片段组;从所述第一聚类结果中提取目标特征词,输入机器学习模型;获取所述机器学习模型输出的各概率值;其中,所述机器学习模型,通过对包括文本信息与标签的对应关系的样本进行语义分析训练得到;所述各概率值分别表示各所述目标特征词分别作为所述文本信息的标签的概率大小;根据所述各概率值,选取符合概率条件的标签,并将所选取的标签与所述多媒体内容相关联。2.根据权利要求1所述的内容标签的设置方法,其特征在于,在所述对所述各分词片段进行聚类,以获得第一聚类结果之前,所述方法还包括:根据多媒体内容的不同媒体类型,将所述各分词片段归类为各媒体类型的分词片段;所述对所述各分词片段进行聚类,以获得第一聚类结果,包括:对所述各媒体类型的分词片段进行聚类,以获得第一聚类结果。3.根据权利要求1所述的内容标签的设置方法,其特征在于,所述从所述第一聚类结果中提取目标特征词,包括:统计各聚类类别的分词片段组中的各分词片段在所有聚类类别中出现的频率,根据所述频率和各分词片段的权重值,确定各分词片段在所有聚类类别中的重要程度值;从所确定的各重要程度值中选取符合程度条件的重要程度值,根据所选取的重要程度值对应的分词片段,确定目标特征词。4.根据权利要求3所述的内容标签的设置方法,其特征在于,所述根据所选取的重要程度值对应的分词片段,确定目标特征词,包括:根据多媒体内容的不同媒体类型,对所述选取的重要程度值对应的分词片段进行分类,以获得各媒体类型的特征词集合;根据从所述各媒体类型的特征词集合中选取的用于表征所属媒体类型的文本信息的特征词,确定目标特征词。5.根据权利要求4所述的内容标签的设置方法,其特征在于,所述根据从所述各媒体类型的特征词集合中选取的用于表征所属媒体类型的文本信息的特征词,确定目标特征词,包括:从所述各媒体类型的特征词集合中选取用于表征所属媒体类型的文本信息的特征词;基于所选取的特征词对应的特征向量,构建向量空间模型;基于所述向量空间模型,计算各特征向量之间的相似度,根据所述相似度的计算结果对所选取的特征词进行聚类,以获得第二聚类结果,其中,所述第二聚类结果包括各聚类类别的特征词;从所述各聚类类别的特征词中提取目标特征词。6.根据权利要求1所述的内容标签的设置方法,其特征在于,所述对所述文本信息进行分词,以获得各分词片段,包括:对所述文本信息进行分词,获得分词片段集合;根据预设语料库中存储的停用词,从所述分词片段集合中过滤掉所述停用词,将所述分词片段集合中除所述过滤掉的停用词之外的剩余分词片段,作为与所述文本信息对应的分词片段。7.根据权利要求1所述的内容标签的设置方法,其特征在于,在所述根据所述各概率值,选取符合概率条件的标签之后,所述方法还包括:获取修正标签,所述修正标签为用于更新所述机器学习模型输出的与所述文本信息对应的标签;当所述修正标签的数量达到第一预设阈值,和/或所述机器学习模型中进行语义分析训练的训练时间间隔达到第二预设阈值时,基于所述修正标签及所对应的文本信息更新所述机器学习模型,根据更新后的机器学习模型重新确定与所述文本信息对应的标签。8.根据权利要求7所述的内容标签的设置方法,其特征在于,在所述根据所述各概率值,选取符合概率条件的标签之后,所述方法还包括:获取偏好信息;所述偏好信息,用于表征对具有相同标签的各多媒体内容的偏好;根据所述偏好信息,对与所述各多媒体内容相关联的文本信息的标签进行调整;根据所述文本信息以及相应的调整后的标签,更新所述机器学习模型。9.一种内容标签的设置装置,其特征在于,所述装置包括:获取模块、分词模块、聚类模块、提取模块、生成模块和关联模块;其中,所述获取模块,用于获取与多媒体内容相关联的文本信息;所述分词模块,用于对所述文本信息进行分词,以获得各分...

【专利技术属性】
技术研发人员:邹建波
申请(专利权)人:咪咕互动娱乐有限公司中国移动通信集团公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1