【技术实现步骤摘要】
文本标签的提取方法及装置、存储介质
本公开涉及自然语言处理领域,尤其涉及一种文本标签的提取方法及装置、存储介质。
技术介绍
随着网络时代信息例如科技文献、社交推文和网页等呈几何级数的不断增长,对规模庞大的文本数据进行分析和挖掘成为当前备受关注的领域,其中如何有效表示文本信息成为了自然语言处理领域研究的基础和热点问题。在实际表示文本中,文本标签是比文本摘要更加精炼的词或者短语,现有的通常用文本标签来表示文本信息以及用户感兴趣的词或者短语,能够有助于用户迅速理解文本内容以及通过文本标签对文本进行分类和推荐。因此,文本标签的提取精准程度直接影响者推荐或者搜索的最终效果。
技术实现思路
本公开提供一种文本标签的提取方法及装置、存储介质。根据本公开实施例的第一方面,提供一种文本标签的提取方法,包括:对目标文本进行预处理获得所述目标文本的候选标签集;对所述候选标签集中的候选标签进行特征提取,获得所述候选标签的特征集;其中,所述特征集包括:至少两个描述所述候选标签的特征;基于所述 ...
【技术保护点】
1.一种文本标签的提取方法,其特征在于,所述方法包括:/n对目标文本进行预处理获得所述目标文本的候选标签集;/n对所述候选标签集中的候选标签进行特征提取,获得所述候选标签的特征集;其中,所述特征集包括:至少两个描述所述候选标签的特征;/n基于所述候选标签的所述特征集,确定与所述目标文本相匹配的目标标签。/n
【技术特征摘要】
1.一种文本标签的提取方法,其特征在于,所述方法包括:
对目标文本进行预处理获得所述目标文本的候选标签集;
对所述候选标签集中的候选标签进行特征提取,获得所述候选标签的特征集;其中,所述特征集包括:至少两个描述所述候选标签的特征;
基于所述候选标签的所述特征集,确定与所述目标文本相匹配的目标标签。
2.根据权利要求1所述的方法,其特征在于,所述基于所述候选标签的所述特征集,确定与所述目标文本相匹配的目标标签,包括:
将各所述候选标签的所述特征集输入排列学习模型,得到各所述候选标签的打分值;
基于各所述候选标签的所述打分值,从所述候选标签中选择一个或多个确定为所述目标文本的目标标签。
3.根据权利要求2所述的方法,其特征在于,所述基于各所述候选标签的所述打分值,从所述候选标签中选择一个或多个确定为所述目标文本的目标标签,包括:
对各所述候选标签的所述打分值进行归一化处理,得到归一化打分结果;
选择所述归一化打分结果大于打分阈值的一个或多个所述候选标签,确定为所述目标文本的目标标签。
4.根据权利要求3所述的方法,其特征在于,所述选择所述归一化打分结果大于打分阈值的一个或多个所述候选标签,确定为所述目标文本的目标标签,还包括:
当所述归一化打分结果大于所述打分阈值,且所述候选标签个数大于个数阈值N时,从所述归一化打分结果大于所述打分阈值的候选标签中,选择所述归一化打分最高的N个所述候选标签确定为所述目标标签。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取至少两个样本文本的正确标签的第一特征对;
获取所述至少两个样本文本的错误标签的第二特征对;
将所述第一特征对和所述第二特征对输入到排序训练模型中,训练得到所述排列学习模型;其中,所述排列学习模型对所述正确标签进行打分的打分结果,大于所述排列学习模型对所述错误标签进行打分的打分结果。
6.根据权利要求5所述的方法,其特征在于,所述排序训练模型为通过梯度模型对损失模型进行优化形成的模型。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述特征集中的特征包括以下至少之一:
所述候选标签与所述目标文本之间的相似度;
所述候选标签所对应词的词性指示;
所述候选标签所对应词出现在所述目标文本中的位置;
所述候选标签所对应词在所述目标文本中的出现频次;
所述目标文本的关键词中是否包含所述候选标签;
所述目标文本的扩展关键词中是否包含所述候选标签;
所述候选标签所对应词的长度;
所述候选标签所对应词的逆文本词频。
8.一种文本标签的提取装置,其特征在于,所述装置包括:
预处理模块,配置为对目标文本进行预处理获得所述目标文本的候选标签集;
提取模块,配置为对所述候选标签集中的...
【专利技术属性】
技术研发人员:毛晶晶,陈渊,淳刚,
申请(专利权)人:北京小米松果电子有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。