语义标签生成方法及设备、计算机存储介质技术

技术编号:22444525 阅读:19 留言:0更新日期:2019-11-02 04:27
本申请实施例提供了一种语义标签生成方法及设备、计算机存储介质,本申请中,为媒体预先设置有描述维度和描述维度的组合要求,之后利用组合要求,将描述维度对应的描述维值进行组合连接,能够生成含义清晰、语义完整的语义标签,克服了现有技术中直接从媒体的相关信息中提取语义标签所造成的标签数量少的缺陷。进一步地,利用生成的多个语义标签能够有效地支持媒体的推荐、搜索等应用。

Semantic label generation method and equipment, computer storage medium

【技术实现步骤摘要】
语义标签生成方法及设备、计算机存储介质
本申请实施例涉及计算机及文本处理
,并且更具体地,涉及一种语义标签生成方法及设备、计算机存储介质。
技术介绍
为了满足用户对视频、音频、网页等媒体信息的搜索定位需求,在对媒体进行管理时,通常会为每个媒体设置至少一个能够反映媒体内容或用户使用感受的标签。由于不同的标签可以从不同的维度对媒体进行描述,因此使用者可以通过标签实现对资源信息细粒度、多维度的搜索定位。例如,视频运营网站为了满足用户对视频搜索定位的需求,通常会为视频设置视频标签,从而使用户可以利用视频标签快速的搜索到需要的视频。媒体的标签通常可以直接从媒体的关联文本中提取,所述关联文本包括但不限于对应媒体资源的元数据、简介、评论或字幕等。例如可以采用自然语言处理(NaturalLanguageProcessing,NLP)的技术,按照预设的提取规则从媒体的关联文本中提取媒体相对应的标签。由于关联文本的种类多样,因此按照预设的提取规则从关联文本中提取的标签可能存在噪音,所以在提取出标签之后,还需要进行多个过滤环节,滤除标签中的噪音,才能得到最终的标签。在实际使用中,预设的提取规则通常会比较有限,因此按照预设的提取规则从关联文本中提取出的标签数量本身就比较有限,再经过过滤后会进一步减少标签的数量,导致最终得到的标签数量十分有限。
技术实现思路
本申请实施例提供一种语义标签生成方法及设备、计算机存储介质,其利用媒体的标签提取语法规则和描述维度,结合媒体的相关信息,能够形成多个语义标签,克服了利用现有技术形成的语义标签数量少的缺陷。第一方面,提供了一种语义标签生成方法,该方法用于生成媒体的语义标签,具体包括:获取媒体的相关信息、所述媒体的描述维度的组合要求,所述组合要求用于表示所述媒体的多个所述描述维度对应的描述维值的组合形式;这里的相关信息是指从媒体上直接得到的文本信息或从媒体的相关网站上获取到的关于媒体内容、媒体评价等的关联文本信息。这里的媒体是指传播信息的媒介,例如可以是视频、音频、网页、音乐的等。这里的组合要求是为媒体预先设定的,不同的媒体可以设置有不同的组合要求,同一媒体可以设置有多个组合要求。这里的描述维度为描述媒体的一个预定角度,一个媒体预先设定了多个描述维度。根据所述媒体的相关信息确定所述描述维度对应的描述维值,所述描述维值为从所述描述维度描述所述媒体的词汇。这里的描述维值是描述维度的具体取值,描述维值不限于是一个词汇,还可以是包括多个词汇的短语;这里的描述维值是一个预定的词汇或短语。根据所述组合要求和所述描述维度对应的描述维值生成所述媒体的语义标签。这里的组合要求用于表示媒体的多个描述维度对应的描述维值的组合形式,根据组合要求中表示的描述维值的组合形式和各个描述维度对应的描述维值即可生成语义标签。由于组合要求包括多个描述维度对应的描述维值的组合形式,因此利用上述组合要求生成的语义标签能够从至少一个角度描述媒体。本方面中,利用媒体的描述维度的组合要求,将描述维度对应的描述维值进行组合,能够生成含义清晰、语义完整的语义标签,克服了现有技术中直接从媒体的相关信息中提取语义标签所造成的标签数量少的缺陷。同时,利用不同的描述维度对应的描述维值进行组合能够形成含义丰富语义标签,继而利用生成的稠密、多样的语义标签能够有效地支持媒体的推荐、搜索等应用。结合第一方面,在第一种可能的实现方式中,所述根据所述组合要求和所述描述维度对应的描述维值生成所述媒体的语义标签,包括:从所述组合要求中获取各个描述维度对应的描述维值的连接关系。根据所述连接关系,将各个描述维度的描述维值进行连接,得到所述语义标签。本方面中,组合要求表示了各个描述维度的连接关系,根据组合要求连接各个描述维度形成的语义标签含义清晰,并且语义完整。结合第一方面,在第二种可能的实现方式中,根据所述组合要求和所述描述维度对应的描述维值生成语义标签,包括;从所述组合要求中获取各个描述维度对应的描述维值的连接关系;从所述组合要求中获取各个描述维度对应的描述维值在生成语义标签时被选取的最小概率;根据各个所述描述维值在生成的语义标签中被选取的最小概率,选取若干个描述维值;根据所述连接关系,将选取得到的描述维值进行连接,得到所述语义标签。。本方面中,根据描述维值在生成语义标签时被选用的最小概率,可以利用一个组合要求成多个语义标签,克服了利用现有技术形成的语义标签数量少的缺陷,从而能够有效支持媒体的推荐、搜索等应用。结合第一方面、第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式,在第三种可能的实现方式中,在得到所述语义标签之后,所述语义标签生成方法还包括:统计每个所述语义标签包括的描述维值的个数;删除描述维值的个数小于第一预定值的语义标签;其中,所述组合要求还包括所述第一预定值。本方面能够有效控制语义标签中描述媒体的角度的数量。结合第一方面、第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式,在第四种可能的实现方式中,在得到所述语义标签之后,所述语义标签生成方法还包括:统计每个所述语义标签所包括的字符的个数;删除字符个数大于第二预定值的语义标签;其中,所述组合要求包括所述第二预定值。本方面能够控制生成的语义标签的长度,以确保生成简洁、意义明确的语义标签。结合第一方面、第一方面的第一种可能的实现方式、第一方面的第二种可能的实现方式、第一方面的第三种可能的实现方式或第一方面的第四种可能的实现方式,在第五种可能的实现方式中,根据所述媒体的相关信息确定所述描述维度对应的描述维值,包括:从所述媒体的相关信息中提取所述描述维度对应的描述词汇。这里的描述词汇为从所述描述维度描述所述媒体的词汇;应当说明的是这里的描述词汇可以不限于是一个词汇,还可以是包括多个词汇的短语;确定所述描述词汇对应的标准词汇,所述标准词汇为预定的词汇;这里标准词汇与描述词汇的映射关系是预先设定的,根据该映射关系可以确定描述词汇对应的标准词汇。此步骤执行完毕后,得到的每一个标准词汇对应一个或多个描述词汇;这里的标准词汇可以不限于是一个词汇,还可以是包括多个词汇的短语;确定每个所述标准词汇的权重。选取权重最大的所述标准词汇,得到所述描述维值。这里,如果权重最大的标准词汇的数量大于1个,判断得到的多个标准词汇是否存在语义矛盾,如果不存在矛盾,则将得到多个标准词汇都作为描述维值,如果得到的多个标准词汇存在语义矛盾,则按照预定方式选取其中的一个标准作为描述维值。上述预定方式可以是随机选取的方式。本方面中,将提取的描述词汇映射到标准词汇上,实现了对描述词汇的归一化处理,后续选用权重最大的标准词汇作为描述维值生成语义标签,能够有效避免同义语义标签的出现。结合第一方面的第五种可能的实现方式,在第六种可能的实现方式中,语义标签生成方法还包括:在得到的所述描述维度对应的所述描述维值大于1个的情况下,从每个描述维度对应的描述维值中提取任意一个描述维值,得到多个描述维值组,每个描述维值组均包括所有的描述维度对应的描述维值。根据所述组合要求和每个所述描述维值组中的描述维值生成语义标签,即分别利用每个描述维值组中的描述维值,根据所述组合要求生成语义标签。本方面中,在某一个或多个描述维度对应的描述维值本文档来自技高网...

【技术保护点】
1.一种语义标签生成方法,其特征在于,所述方法包括:获取媒体的相关信息、所述媒体的描述维度的组合要求,所述组合要求用于表示所述媒体的多个所述描述维度对应的描述维值的组合形式;根据所述媒体的相关信息确定所述描述维度对应的描述维值,所述描述维值为从所述描述维度描述所述媒体的词汇;根据所述组合要求和所述描述维度对应的描述维值生成所述媒体的语义标签。

【技术特征摘要】
1.一种语义标签生成方法,其特征在于,所述方法包括:获取媒体的相关信息、所述媒体的描述维度的组合要求,所述组合要求用于表示所述媒体的多个所述描述维度对应的描述维值的组合形式;根据所述媒体的相关信息确定所述描述维度对应的描述维值,所述描述维值为从所述描述维度描述所述媒体的词汇;根据所述组合要求和所述描述维度对应的描述维值生成所述媒体的语义标签。2.根据权利要求1所述的方法,其特征在于,所述根据所述组合要求和所述描述维度对应的描述维值生成所述媒体的语义标签,包括:从所述组合要求中获取各个描述维度对应的描述维值的连接关系;根据所述连接关系,将各个描述维度的描述维值进行连接,得到所述语义标签。3.根据权利要求1所述的方法,其特征在于,所述根据所述组合要求和所述描述维度对应的描述维值生成所述媒体的语义标签,包括:从所述组合要求中获取各个描述维度对应的描述维值的连接关系;从所述组合要求中获取各个描述维度对应的描述维值在生成语义标签时被选取的最小概率;根据各个所述描述维值在生成的语义标签中被选取的最小概率,选取若干个描述维值;根据所述连接关系,将选取得到的描述维值进行连接,得到所述语义标签。4.根据权利要求1至3任一项所述的方法,其特征在于,在得到所述语义标签之后,所述方法还包括:统计每个所述语义标签所包括的描述维值的个数;删除描述维值的个数小于第一预定值的语义标签;其中,所述组合要求还包括所述第一预定值。5.根据权利要求1至3任一项所述的方法,其特征在于,在得到所述语义标签之后,所述方法还包括:统计每个所述语义标签所包括的字符的个数;删除字符个数大于第二预定值的语义标签;其中,所述组合要求包括所述第二预定值。6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述媒体的相关信息确定所述描述维度对应的描述维值,包括:从所述媒体的相关信息中提取所述描述维度对应的描述词汇;确定所述描述词汇对应的标准词汇,所述标准词汇为预定的词汇;确定每个所述标准词汇的权重;选取权重最大的所述标准词汇,得到所述描述维值。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:在得到的所述描述维度对应的描述维值大于1个的情况下,从每个描述维度对应的描述维值中提取任意一个描述维值,得到多个描述维值组,每个描述维值组均包括所有的描述维度对应的描述维值;根据所述组合要求和每个所述描述维值组中的描述维值生成语义标签。8.根据权利要求7所述的方法,其特征在于,所述方法还包括:获取所述语义标签中的每个描述维值对应的标准词汇的权重,得到所述语义标签中的每个描述维值的权重;计算所述语义标签中的所有的描述维值的权重的和,得到所述语义标签的权重;根据所述语义标签的权重,按照从大到小的顺序将所述语义标签进行排序;选取前N个语义标签,得到最终的语义标签,其中N为大于或等于1的整数。9.根据权利要求6所述的方法,其特征在于,确定所述标准词汇的权重,包括:确定所述标准词汇对应的描述词汇的权重;计算所述标准词汇对应的所有的描述词汇的权重的和,得到所述标准词汇的权...

【专利技术属性】
技术研发人员:胡磊张旭
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1