标签提取方法、装置、电子设备和存储介质制造方法及图纸

技术编号:34946313 阅读:25 留言:0更新日期:2022-09-17 12:22
本发明专利技术提供一种标签提取方法、装置、电子设备和存储介质,所述方法包括:基于样本文本之间的语义相似度,确定多个候选话题簇;基于各候选话题簇的关键词语义,对各候选话题簇进行话题聚类,得到多个话题簇;对各话题簇中的样本文本分别进行标签提取,得到各话题簇的标签。本发明专利技术提供的标签提取方法、装置、电子设备和存储介质,基于能够从语义层面表征样本文本之间相似程度的语义相似度以及能够刻画各候选话题簇主题特征信息的关键词语义进行标签提取,提高了标签提取的准确度,同时本发明专利技术自动进行标签提取,提高了标签提取效率。提高了标签提取效率。提高了标签提取效率。

【技术实现步骤摘要】
标签提取方法、装置、电子设备和存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种标签提取方法、装置、电子设备和存储介质。

技术介绍

[0002]随着信息技术的不断发展,各个类型的文本都开始以计算机可读形式存在,因此如何在海量信息当中,快速并准确的提取对用户有用的信息是一个重要的问题。标签提取就是一种解决上述问题的有效手段,标签是对文章、音乐、商品等事物信息的精炼,使用户能够方便、快捷的了解事物的主题信息,从而提高信息访问的效率。
[0003]目前,关于标签提取的技术主要包括人工整理提取和关键词提取。人工整理提取主要依赖具有相关业务知识储备的专业人士,人工从文本中提炼相应的标签,但该方法效率较低,且可能由于人工失误造成提取标签不准确的问题。关键词提取主要依赖机器学习从文本中提取关键词作为标签,但所提取出的关键词通常都是单独的分词,使得标签无法准确表征文本的主题信息。

技术实现思路

[0004]本专利技术提供一种标签提取方法、装置、电子设备和存储介质,用以解决现有技术中标签提取准确率较低的缺陷。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标签提取方法,其特征在于,包括:基于样本文本之间的语义相似度,确定多个候选话题簇;基于各候选话题簇的关键词语义,对各候选话题簇进行话题聚类,得到多个话题簇;对各话题簇中的样本文本分别进行标签提取,得到各话题簇的标签。2.根据权利要求1所述的标签提取方法,其特征在于,所述样本文本包括携带话题类别标签的第一样本文本和未携带话题类别标签的第二样本文本;所述基于样本文本之间的语义相似度,确定多个候选话题簇,包括:基于所述第一样本文本携带的话题类别标签,确定多个初始话题簇,所述初始话题簇的数量基于所述话题类别标签的种类数量确定;基于所述第二样本文本与各初始话题簇中的第一样本文本之间的语义相似度,更新所述多个初始话题簇,得到所述多个候选话题簇。3.根据权利要求2所述的标签提取方法,其特征在于,所述基于所述第二样本文本与各初始话题簇中的第一样本文本之间的语义相似度,更新所述多个初始话题簇,得到所述多个候选话题簇,包括:基于所述第二样本文本与各初始话题簇中的第一样本文本之间的语义相似度,确定所述第二样本文本与各初始话题簇之间的平均语义相似度;在所述平均语义相似度大于阈值的情况下,将所述第二样本文本添加至对应的初始话题簇,以更新对应的初始话题簇;在所述平均语义相似度小于等于所述阈值的情况,基于所述第二样本文本构建新增的初始话题簇;将更新完成的初始话题簇确定为候选话题簇。4.根据权利要求1所述的标签提取方法,其特征在于,所述基于各候选话题簇的关键词语义,对各候选话题簇进行话题聚类,得到多个话题簇,包括:基于各候选话题簇的关键词语义,确定各候选话题簇的语义表示;基于各候选话题簇的语义表示,确定各候选话题簇之间的语义相似度,并基于各候选话题簇之间的语义相似度对各候选话题簇进行话题聚类,得到各话题簇。5.根据权利要求4所述的标签提取方法,其特征在于,所述基于各候选话题簇的关键词语义,确定各候选话题簇的语义表示,包括:基于各候选话题簇中各分词的出现频次,确定各候选话题簇的关键词;基于分词权重,...

【专利技术属性】
技术研发人员:谭昶洪源陈士星张友国吕军胡少云刘江刘芳范磊
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1