【技术实现步骤摘要】
标签提取方法、装置及设备
[0001]本申请涉及数据处理
,尤其涉及一种标签提取方法、装置及设备。
技术介绍
[0002]目前,为了方便用户更快了解文本内容的核心点,通常会为内容设置标签。标签是对内容进行分类和应用的一系列词语。
[0003]在相关技术中,内容标签提取的方法主要包括两种:第一种是有监督的学习方法,此方法需要标注大量样本文本,人工成本相当高。新增内容标签需要重新训练模型,且重新训练的模型对原有内容标签的效果会产生影响,大部分内容标签需要重新进行效果评估;第二种是无监督的学习方法,虽然此方法大幅度降低了人工标注成本,但提取出来的内容标签的准确率及召回率并不佳,无法满足业务需求。
[0004]但是,相关技术采用的方法大多数都只是考虑了某些特定场景下的效果,并且在实际应用过程中,由于文本内容的多样性,使得采用相关技术方法所提取的标签的准确率和召回率都有待提高。
技术实现思路
[0005]为解决或部分解决相关技术中存在的问题,本申请提供一种标签提取方法、装置及设备,能够提高标签提取 ...
【技术保护点】
【技术特征摘要】
1.一种标签提取方法,其特征在于,包括:分别获取通过两个或两个以上设定提取算法得到的内容与标签的相关度;将所述分别获取的内容与标签的相关度通过预设融合算法进行线性求和运算,得到相关度运算值;在所述相关度运算值大于相关度阈值时,输出所述相关度运算值对应的标签。2.根据权利要求1所述的方法,其特征在于,所述分别获取通过两个或两个以上设定提取算法得到的内容与标签的相关度,包括:获取通过第一提取算法得到的内容与标签的第一相关度,其中所述第一提取算法基于语义匹配;获取通过第二提取算法得到的内容与标签的第二相关度,其中所述第二提取算法基于标题匹配;获取通过第三提取算法得到的内容与标签的第三相关度,其中所述第三提取算法基于附加信息匹配。3.根据权利要求1所述的方法,其特征在于,所述将所述分别获取的内容与标签的相关度通过预设融合算法进行线性求和运算,得到相关度运算值,包括:根据所述标签的数量和所述设定提取算法的数量得到所述内容与标签的相关度的相关度矩阵;获取预置的权重矩阵,所述权重矩阵中包括所述设定提取算法在所述标签的权重;将所述相关度矩阵与所述权重矩阵进行线性求和运算,得到相关度运算值。4.根据权利要求2所述的方法,其特征在于,所述获取通过第一提取算法得到的内容与标签的第一相关度,其中所述第一提取算法基于语义匹配,包括:对于文本内容,根据关键词提取算法得到文本内容的关键词后,将所述关键词输入word2vec模型,得到所述关键词的向量;对于标签对应的文本内容,根据关键词提取算法得到文本内容的关键词后,再确定其中的核心词及所述核心词的相关词,将所述核心词和所述相关词输入word2vec模型,得到所述核心词和所述相关词的词向量,将所述核心词和所述相关词的词向量进行向量求和,得到所述标签的向量;根据所述关键词的向量与所述标签的向量进行第一设定运算,得到关键词与标签的第一相关度。5.根据权利要求4所述的方法,其特征在于:所述相关词根据相似度划分为高相关词和低相关词。6.根据权利要求2所述的方法,其特征在于,所述获取通过第二提取算法得到的内容与标签的第二相关度,其中所述第二提取算法基于标题匹配,包括:对...
【专利技术属性】
技术研发人员:龙荣深,李昕怡,
申请(专利权)人:广州小鹏汽车科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。