一种标签的标记方法、装置、服务器和存储介质制造方法及图纸

技术编号:20730271 阅读:42 留言:0更新日期:2019-03-30 19:38
本发明专利技术实施例公开了一种标签的标记方法、装置、服务器和存储介质。该方法包括:从直播类别中的直播间提取多个类型的文本信息;从所述文本信息中提取特征词;根据所述特征词与所述直播类别之间的关联性从所述特征词中筛选候选词;根据所述文本信息对应的类型从所述候选词中筛选目标词;将所述目标词设置为所述直播类别的标签信息。通过关联性初步筛选具有代表性的词,通过类型精确筛选重要的词,保证了该词作为标签信息的准确性,用户可以通过直播类别的标签信息多维度地识别直播类别包含的直播间的内容,进入合适的直播类别快速寻找喜欢的直播间。

【技术实现步骤摘要】
一种标签的标记方法、装置、服务器和存储介质
本专利技术实施例涉及自然语言处理的技术,尤其涉及一种标签的标记方法、装置、服务器和存储介质。
技术介绍
随着网络科技的快速发展,直播间的数量快速增长,例如,直播游戏、直播个人才艺表演,等等。为了方便管理直播间,直播平台通常对直播间划分不同的直播类别,用户通常基于直播分类的名称大概判断直播间的内容,从而进入相应的直播类别寻找喜欢的直播间进行观看。但是,某些直播类别之间的界限并不明显,如果某个直播间同时存在与多个直播类别相同或相似的元素,则可能被划分至多个直播类别。例如,针对娱乐相关的直播间,可能划分出“颜值”、“户外”、“美食”等直播类别,某个女明星在户外直播烧烤,皆有可能划分至这三个直播类别中。因此,用户需要进入多个直播类别中寻找喜欢的直播间,遍历的直播间的数量较多,导致操作较为繁琐、效率较低。
技术实现思路
本专利技术实施例提供一种标签的标记方法、装置、服务器和存储介质,以解决基于直播分类的名称大概判断直播间的内容,从而选择相应的直播类别寻找直播间,导致操作较为繁琐、效率较低的问题。第一方面,本专利技术实施例提供了一种标签的标记方法,包括:从本文档来自技高网...

【技术保护点】
1.一种标签的标记方法,其特征在于,包括:从直播类别中的直播间提取多个类型的文本信息;从所述文本信息中提取特征词;根据所述特征词与所述直播类别之间的关联性从所述特征词中筛选候选词;根据所述文本信息对应的类型从所述候选词中筛选目标词;将所述目标词设置为所述直播类别的标签信息。

【技术特征摘要】
1.一种标签的标记方法,其特征在于,包括:从直播类别中的直播间提取多个类型的文本信息;从所述文本信息中提取特征词;根据所述特征词与所述直播类别之间的关联性从所述特征词中筛选候选词;根据所述文本信息对应的类型从所述候选词中筛选目标词;将所述目标词设置为所述直播类别的标签信息。2.根据权利要求1所述的方法,其特征在于,所述根据所述特征词与所述直播类别之间的关联性从所述特征词中筛选候选词,包括:基于所述特征词与所述直播类别之间的分布差异计算所述特征词的期望值,其中,所述期望值与所述分布差异正相关;按照所述期望值从所述特征词中筛选候选词。3.根据权利要求2所述的方法,其特征在于,通过如下公式计算所述特征词的期望值其中,N为所述文本信息的数量,A表示在直播类别v中出现特征词w的次数,B表示在非直播类别v中出现特征词w的次数,C表示在直播类别v中出现非特征词w的次数,D表示在非直播类别v中出现非特征词w的次数。4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述文本信息对应的类型从所述候选词中筛选目标词,包括:计算所述候选词在所述类型中的分类评分值;结合所述分类评分值计算所述候选词的综合评分值;按照所述综合评分值从所述候选词中筛选目标词。5.根据权利要求4所述的方法,其特征在于,所述计算所述候选词在所述类型中的分类评分值,包括:统计所述候选词在所述类型中出现的总次数;按照所述总次数计算所述候选词在所述类型中的分类评分值,其中,所述总次数与所述分类评分值正相关。6.根据权利要求4所述的方法,其特征在于,所述结合所述分类评分值计算所述候选词的综合评分值,包括:按照所述类...

【专利技术属性】
技术研发人员:徐乐乐
申请(专利权)人:武汉斗鱼网络科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1