一种标签提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:21034752 阅读:45 留言:0更新日期:2019-05-04 05:35
本发明专利技术实施例公开了一种标签提取方法、装置、电子设备及存储介质,所述方法包括:基于预先训练好的隐马尔可夫模型HMM对待处理文本进行分词处理,并确定所述待处理文本的特征词集合;利用改进的词频逆文本频率TF‑IDF算法计算所述特征词集合中每个特征词的权重;按照设定规则对所述每个特征词的权重进行调整,获取所述待处理文本的候选标签集;基于TextRank算法对所述候选标签集进行筛选,确定所述待处理文本的目标标签。通过采用上述技术方案,实现了对文本标签的高效、准确提取。

A Label Extraction Method, Device, Electronic Equipment and Storage Media

【技术实现步骤摘要】
一种标签提取方法、装置、电子设备及存储介质
本专利技术实施例涉及数据处理
,尤其涉及一种标签提取方法、装置、设备及介质。
技术介绍
目前,基于iOS平台或者基于Android平台的直播间应用程序发展迅速,深受用户喜爱。弹幕是直播平台一种非常流行的用于信息交流以及信息共享的表达方式,通过弹幕可以实现观众与主播之间的互动,有助于营造良好的直播氛围。在基于文本的应用中,很多时候需要从文本中提取出能够描述文本内容的词语,该词语被称为文本的标签,它能够对文本的内容进行简单的描述和分类,以便于检索和分享。在机器人会话领域中,通常需要从海量的弹幕文本中提取出核心的会话场景,并得到对应场景的标签,以便于后续对弹幕文本内容进行总结、分析等操作。因此,开发一种高效的标签提取方法显得非常有必要。
技术实现思路
本专利技术实施例提供一种标签提取方法、装置、设备及介质,通过所述方法可实现有效提取文本的标签。为实现上述目的,本专利技术实施例采用如下技术方案:第一方面,本专利技术实施例提供了一种标签提取方法,所述方法包括:基于预先训练好的HMM(HiddenMarkovModel,隐马尔可夫模型)对待处理文本进本文档来自技高网...

【技术保护点】
1.一种标签提取方法,其特征在于,包括:基于预先训练好的隐马尔可夫模型HMM对待处理文本进行分词处理,并确定所述待处理文本的特征词集合;利用改进的词频逆文本频率TF‑IDF算法计算所述特征词集合中每个特征词的权重;按照设定规则对所述每个特征词的权重进行调整,获取所述待处理文本的候选标签集;基于TextRank算法对所述候选标签集进行筛选,确定所述待处理文本的目标标签。

【技术特征摘要】
1.一种标签提取方法,其特征在于,包括:基于预先训练好的隐马尔可夫模型HMM对待处理文本进行分词处理,并确定所述待处理文本的特征词集合;利用改进的词频逆文本频率TF-IDF算法计算所述特征词集合中每个特征词的权重;按照设定规则对所述每个特征词的权重进行调整,获取所述待处理文本的候选标签集;基于TextRank算法对所述候选标签集进行筛选,确定所述待处理文本的目标标签。2.根据权利要求1所述的方法,其特征在于,所述预先训练好的隐马尔可夫模型HMM基于特定领域的语料库进行训练得到。3.根据权利要求1所述的方法,其特征在于,所述利用改进的词频逆文本频率TF-IDF算法计算所述特征词集合中每个特征词的权重,包括:按照如下公式计算所述特征词集合中每个特征词的权重:其中,wordij表示特征词wij的权重,wij表示待处理文本集中第i篇文本中的第j个特征词,wkj表示待处理文本集中第k篇文本中的第j个特征词,表示特征词wij在第i篇文本中出现的次数,表示特征词wkj在第k篇文本中出现的次数,N表示待处理文本集中文本的总数,表示待处理文本集中包含特征词wij的文本总数,表示待处理文本集中包含特征词wkj的文本总数。4.根据权利要求3所述的方法,其特征在于,所述按照设定规则对所述每个特征词的权重进行调整,包括:按照如下公式对所述每个特征词的权重进行调整:wordhij=wordij*tf(wij)其中,wordhij表示调整后的特征词wij的权重,wordij表示调整前特征词wij的权重,tf(wij)表示特征词wij的词频;基于调整后的特征词权重对所述特征词集合的特征词排序;依据排序从高到低的顺序选取设定数量的特征词作为所述待处理文本的候选标签集。5.根据权利要求4所述的方法,其特征在于,所述基于TextRank算法对所述候选标签集进行筛选,确定所述待处理文本的目标标签,包括:根据所述候选标签集中的特征词在所述待处理文本中的位置关系生成文本图模型;基于所述文本图模型利用TextRank算法对所述候选标签集进行筛选,确定所述待处理文本的目标标签;其中,所...

【专利技术属性】
技术研发人员:徐乐乐
申请(专利权)人:武汉斗鱼网络科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1