The invention discloses a label extraction method, a device, a device and a medium, which relates to the field of Internet technology. The method comprises the following steps: segmentation of text data, get a number of content words, and according to the notional word to determine a candidate label word; each candidate tag word as the candidate word tag, and according to the current candidate tag word in the text data in the hot trend, determines the current candidate tag in words the current heat value; judging whether the heat value meets the conditions set the label words, if met, will be the current candidate word as the word tag tag. The embodiment of the invention provides a label extraction method, device, device and medium, and realizes the extraction of new hot topics and hot words labels.
【技术实现步骤摘要】
一种标签提取方法、装置、设备和介质
本专利技术实施例涉及互联网
,尤其涉及一种标签提取方法、装置、设备和介质。
技术介绍
标签作为对内容的刻画特征,对于内容理解及推荐系统起到至关重要的作用。目前业界对于标签的提取,常见于利用专业字典对专业文献进行标签的提取。例如,通过对旅游相关网页的文本数据进行分词得到的多个词语,然后在该多个词语中,若存在旅游字典预存的关键词,且该关键词出现的频率大于设定阈值,则将该关键词作为该网页文本内容的标签。但是,随着互联网数据的爆发性增长,经常会出现新的热点话题和热门词语等。现有技术因为不能频繁且及时的更新专业字典,所以无法对新出现的热点话题和热门词语进行标签的提取。
技术实现思路
本专利技术提供一种标签提取方法、装置、设备和介质,以实现对新出现的热点话题和热门词语的标签的提取。第一方面,本专利技术实施例提供了一种标签提取方法,该方法包括:对文本数据进行分词,得到多个实词,并根据所述实词确定候选标签词;将每个候选标签词依次作为当前候选标签词,并根据所述当前候选标签词在所述文本数据中的热度趋势,确定所述当前候选标签词在当前时刻的热度值;判 ...
【技术保护点】
一种标签提取方法,其特征在于,包括:对文本数据进行分词,得到多个实词,并根据所述实词确定候选标签词;将每个候选标签词依次作为当前候选标签词,并根据所述当前候选标签词在所述文本数据中的热度趋势,确定所述当前候选标签词在当前时刻的热度值;判断所述热度值是否满足设定标签词条件,若满足,则将所述当前候选标签词作为标签词。
【技术特征摘要】
1.一种标签提取方法,其特征在于,包括:对文本数据进行分词,得到多个实词,并根据所述实词确定候选标签词;将每个候选标签词依次作为当前候选标签词,并根据所述当前候选标签词在所述文本数据中的热度趋势,确定所述当前候选标签词在当前时刻的热度值;判断所述热度值是否满足设定标签词条件,若满足,则将所述当前候选标签词作为标签词。2.根据权利要求1所述的方法,其特征在于,根据所述当前候选标签词在所述文本数据中的热度趋势,确定所述当前候选标签词在当前时刻的热度值包括:根据所述当前候选标签词在所述文本数据中的热度趋势,确定所述当前候选标签词在当前时刻的热度向量;根据所述热度向量确定所述当前候选标签词在当前时刻的热度值。3.根据权利要求2所述的方法,其特征在于,所述根据所述当前候选标签词在所述文本数据中的热度趋势,确定所述当前候选标签词在当前时刻的热度向量包括:将所述文本数据根据生成时间进行排列;按照设定时间间隔将排列后的所述文本数据划分成多个数据块;确定所述当前候选标签词在每个数据块的热度;根据所述当前候选标签词在相邻数据块中的热度,确定所述当前候选标签词在当前时刻的热度向量。4.根据权利要求3所述的方法,其特征在于,确定所述当前候选标签词在每个数据块的热度包括:根据所述当前候选标签词在每个数据块中的词频、共现组合新词频率和/或词频逆文档频率,确定所述当前候选标签词在每个数据块的热度。5.根据权利要求3所述的方法,其特征在于,根据所述当前候选标签词在相邻数据块中的热度,确定所述当前候选标签词在当前时刻的热度向量包括:将截至当前时刻的设定时长的时间段作为当前时间段;遍历所述当前时间段内的数据块,以逐一比较所述当前候选标签词在相邻所述数据块中的热度;根据比较结果确定所述当前候选标签词在当前时刻的热度向量。6.根据权利要求5所述的方法,其特征在于,根据比较结果确定所述当前候选标签词在当前时刻的热度向量包括:若所述当前候选标签词在所述当前时间段内,目标时刻的相邻数据块中的晚于目标时刻的数据块中的热度,大于、等于或小于在早于目标时刻的数据块中的热度,则对应将第一设定值、第二设定值或第三设定值作为所述当前候选标签词在目标时刻的热度向量,其中第一设定值大于第二设定值,第二设定值大于第三设定值;将不同的目标时刻的热度向量构成的多维度向量,作为所述当前候选标签词在当前时刻的热度向量。7.根据权利要求2所述的方法,其特征在于,所述根据所述热度向量确定所述当前候选标签词在当前时...
【专利技术属性】
技术研发人员:孙健,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。