一种提取主题词的方法及装置制造方法及图纸

技术编号:33700134 阅读:21 留言:0更新日期:2022-06-06 08:07
本申请的实施例提供了一种提取主题词的方法及装置。该提取主题词的方法包括:获取待处理文章;从所述待处理文章中检测出关键词,并基于所述关键词在所述待处理文章中出现的频率,从所述关键词中确定代表所述待处理文章的文本特征的文本词条;基于用户对所述待处理文章的历史查询记录,从所述历史查询记录中包含的文本词条中选取表示用户查询目的的查询词条;基于所述查询词条的热度、以及各所述查询词条之间的相关性,从所述查询词条中选取出既能表示文章属性又能表示用户的搜索意图的主题词。本申请实施例的技术方案提高了主题词对于待处理文章的概括性,以及主题词确定的全面性,进而为之后的文章推广和处理提供了一定的数据基础。的数据基础。的数据基础。

【技术实现步骤摘要】
一种提取主题词的方法及装置


[0001]本申请涉及计算机及通信
,具体而言,涉及一种提取主题词的方法及装置。

技术介绍

[0002]在当前内容运营越来越重要的情况下,很多文章推荐平台中存储有各种类型的文章以供用户阅读。但是当文章种类繁多、且包含的专业多种多样的情况下,很难对文章进行高效的管理或者推广。相关技术中通过让作者本人自己设定主题词的方式来对文章做以标签处理,或者平台中设定一些固定的标签来供作者选择,以得到表示文章内容的主题词。通过这些方式得到的文章主题词往往比较死板和固定,使得最后生成的文章标签不能客观、全面的表示文章的内容,进而影响到文章的推广效率以及用户的查询效率。

技术实现思路

[0003]本申请的实施例提供了一种提取主题词的方法及装置,进而至少在一定程度上可以提高了主题词对于待处理文章的概括性,以及主题词确定的全面性,进而为之后的文章推广和处理提供了一定的数据基础。
[0004]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0005]根据本申请实施例本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种提取主题词的方法,其特征在于,包括:获取待处理文章;从所述待处理文章中检测出关键词,并基于所述关键词在所述待处理文章中出现的频率,从所述关键词中确定代表所述待处理文章的文本特征的文本词条;基于用户对所述待处理文章的历史查询记录,从所述历史查询记录中包含的文本词条中选取表示用户查询目的的查询词条;基于所述查询词条的热度、以及各所述查询词条之间的相关性,从所述查询词条中选取所述待处理文章对应的主题词。2.根据权利要求1所述的方法,其特征在于,从所述待处理文章中检测出关键词,并基于所述关键词在所述待处理文章中出现的频率,从所述关键词中确定代表所述待处理文章的文本特征的文本词条,包括:检测所述待处理文章中包含所述关键词的目标文章,并确定所述目标文章的数目;基于所述待处理文章的总数目与所述目标文章的数目之间的比值,确定表示所述关键词与所述待处理文章之间关联程度的逆向文件频率;基于各所述关键词对应的逆向文件频率和所述关键词在所述待处理文章中出现的频率,从所述关键词中选取代表所述待处理文章的文本特征的文本词条。3.根据权利要求2所述的方法,其特征在于,基于所述待处理文章的总数目与所述目标文章的数目之间的比值,确定表示所述关键词与所述待处理文章之间关联程度的逆向文件频率,包括:基于所述待处理文章的总数目与所述目标文章的数目,计算所述待处理文章的总数目与所述目标文章的数目之间的比值;计算所述比值对应的对数值,将所述对数值作为表示所述关键词与所述待处理文章之间关联程度的逆向文件频率。4.根据权利要求1所述的方法,其特征在于,基于用户对所述待处理文章的历史查询记录,从所述历史查询记录中包含的文本词条中选取表示用户查询目的的查询词条,包括:基于所述文本词条和所述历史查询记录,确定所述历史查询记录对应的文本词条;将所述历史查询记录对应的文本词条进行组合,生成搜索词条组合;通过正向最大匹配算法,从所述搜索词条组合中选取出用于表示用户查询目的的查询词条。5.根据权利要求1所述的方法,其特征在于,基于所述查询词条的热度、以及各所述查询词条之间的相关性,从所述查询词条中选取所述待处理文章对应的主题词,包括:基于两个查询词条在所述历史查询记录中出现的次数,确定所述两个查询词条之间的相关性;基于相邻时段内所述查询词条在所述历史查询记录中出现的次数,计算表示所述查询词条的搜索频率变化幅度的卡方值,作为所述查询词条的热度;基于所述查询词条的热度和所述...

【专利技术属性】
技术研发人员:康战辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1