【技术实现步骤摘要】
标签挖掘方法、装置、设备以及存储介质
本申请涉及人工智能领域中的大数据技术,尤其自然语言处理、智能搜索和智能推荐技术。具体涉及一种标签挖掘方法、装置、设备以及存储介质。
技术介绍
标签是一种常见的内容理解载体。通常来说,一篇互联网上的内容,可以抽象为几个标签,并将其提供给搜索引擎或者推荐引擎,以得到更好的展现和分发效果。精确刻画文本内容的标签在提供给搜索引擎或推荐引擎后,会将文本准确地分发和展现给用户,从而提高用户获取信息的效率和用户体验。
技术实现思路
本公开提供了一种标签挖掘方法、装置、设备以及存储介质。根据本公开的一方面,提供了一种标签挖掘方法,包括:确定已有标签以及所述已有标签的所属类别;根据所述已有标签,从所述类别关联的目标文本中确定候选标签;组合所述已有标签和所述候选标签,并根据组合结果确定新的标签。根据本公开的另一方面,提供了一种标签挖掘装置,包括:类别确定模块,用于确定已有标签以及所述已有标签的所属类别;标签确定模块,用于根据 ...
【技术保护点】
1.一种标签挖掘方法,包括:/n确定已有标签以及所述已有标签的所属类别;/n根据所述已有标签,从所述类别关联的目标文本中确定候选标签;/n组合所述已有标签和所述候选标签,并根据组合结果确定新的标签。/n
【技术特征摘要】
1.一种标签挖掘方法,包括:
确定已有标签以及所述已有标签的所属类别;
根据所述已有标签,从所述类别关联的目标文本中确定候选标签;
组合所述已有标签和所述候选标签,并根据组合结果确定新的标签。
2.根据权利要求1所述的方法,其中,所述确定所述已有标签的所属类别,包括:
统计所述已有标签所在文本的类别;
根据统计结果,从所述已有标签所在文本的类别中确定所述已有标签的所属类别。
3.根据权利要求1或2所述的方法,其中,所述根据所述已有标签,从所述类别关联的目标文本中确定候选标签,包括:
统计所述已有标签与所述目标文本中其他标签的共现频率;
根据统计结果,从所述目标文本的其他标签中确定所述候选标签。
4.根据权利要求1或2所述的方法,其中,所述确定已有标签,包括:
确定热度大于设定热度阈值的标签,并将该标签作为所述已有标签。
5.根据权利要求1或2所述的方法,其中,所述根据组合结果确定新的标签之前,所述方法还包括:
根据所述已有标签和所述候选标签在所述目标文本中的间距和/或共现频率,对所述组合结果进行过滤。
6.根据权利要求1或2所述的方法,其中,所述根据组合结果确定新的标签,包括:
从所述目标文本中提取包括候选标签组的至少一个文本片段,其中所述候选标签组通过组合所述已有标签和所述候选标签得到;
根据所述至少一个文本片段,确定新的标签。
7.根据权利要求6所述的方法,其中,所述根据所述至少一个文本片段,确定新的标签,包括:
提取所述文本片段的主干信息,得到至少一个文本主干;
从所述至少一个文本主干中确定新的标签。
8.根据权利要求7所述的方法,其中,所述从所述至少一个文本主干中确定新的标签,包括:
统计所述至少一个文本主干,根据统计结果从所述至少一个文本主干中确定目标文本主干,并将该目标文本主干作为新的标签。
9.根据权利要求1或2所述的方法,其中,所述组合所述已有标签和所述候选标签,并根据组合结果确定新的标签之后,所述方法还包括:
确定包括所述已有标签和所述候选标签的待标注文本;
将确定的新的标签标注在所述待标注文本中。
10.一种标签挖掘装置,包括:
类别确定模块,用于确定已有标签以及所述已有标签的所属类别;
标签确定模块,用于根据所述已有标签,从所述类别关联的目标文本中确定候选标签;
标签组合模块,用于组合所述已有标签和所述候选标签,并根据组合结果确定新的标签。
11.根据权利要求10所述的...
【专利技术属性】
技术研发人员:雷谦,熊壮,张翔翔,姚后清,施鹏,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。