【技术实现步骤摘要】
提取文本关键词的方法、设备和计算机可读存储介质
本申请涉及自然语言处理领域,特别涉及一种提取文本关键词的方法、设备和计算机可读存储介质。
技术介绍
自然语言处理(NatureLanguageProcessing,NLP)是人工智能(ArtificialIntelligence,AI)领域的一个重要方向,而文本中关键词的提取又是NLP的典型应用。提取文本关键词的实际应用场景非常广泛,例如,对于海量文本数据的处理和分析,关键一步是将文本中的最重要的信息提取出来,而重要信息往往通过几个关键词就可以表征;又如,在百度文库等检索系统中,通过提取文章关键词与检索词进行匹配或相似度计算等,可以提高所召回结果的准确性,等等。现有的提取文本关键词的方法是将待提取文本进行分词后选取候选关键词,根据语料学习得到主题模型,再由主题模型计算文本的主题分布和候选关键词分布,最后计算主题和候选关键词的相似度,选取相似度较高的前n个词作为关键词。然而,上述现有的提取文本关键词方法获取的是全局主题信息,最后得到的关键词不一定就是文本真实的关键词,因而还是存在精度不高的问题。
技术实现思路
本申请实施例提供了一种提取文本关键词的方法、设备和计算机可读存储介质,以解决现有提取文本关键词时精度不高的问题。该技术方案如下:一方面,提供了一种提取文本关键词的方法,该方法包括:通过统计模型,获取目标文本的全局主题词,以得到所述目标文本的全局主题特征q1;挖掘所述目标文本的频繁序列模式,以得到所述目标文本 ...
【技术保护点】
1.一种提取文本关键词的方法,其特征在于,所述方法包括:/n通过统计模型,获取目标文本的全局主题词,以得到所述目标文本的全局主题特征
【技术特征摘要】
1.一种提取文本关键词的方法,其特征在于,所述方法包括:
通过统计模型,获取目标文本的全局主题词,以得到所述目标文本的全局主题特征q1;
挖掘所述目标文本的频繁序列模式,以得到所述目标文本的关键词局部特征q2;
提取所述目标文本的候选关键词,构成候选关键词集;
以特征集Q作为贝叶斯模型的输入,根据所述贝叶斯模型在满足第一条件时从所述候选关键词集确定的关键词a,将所述关键词a作为所述目标文本的关键词,所述特征集Q包括所述目标文本的全局主题特征q1和关键词局部特征q2,所述第一条件为所述贝叶斯模型求取条件概率P(A|Q)不小于第一预设阈值,所述A为所述候选关键词集。
2.如权利要求1所述提取文本关键词的方法,其特征在于,所述通过统计模型,获取目标文本的全局主题词,以得到所述目标文本的全局主题特征q1,包括:
采用狄利克雷分布LDA模型,提取所述目标文本的主题分布向量;
对所述目标文本进行分词以得到所述目标文本的词语,并通过词嵌入获取所述词语的词向量;
计算所述词语的词向量与所述目标文本的主题分布向量的相似度,将所述词语中词向量与所述主题分布向量的相似度大于预设阈值的词语确定为所述目标文本的全局主题词。
3.如权利要求2所述提取文本关键词的方法,其特征在于,所述方法还包括:
将所述目标文本的全局主题词进行聚类,聚类后得到的主题标签作为所述目标文本的全局主题特征q1。
4.如权利要求1所述提取文本关键词的方法,其特征在于,所述挖掘所述目标文本的频繁序列模式,以得到所述目标文本的关键词局部特征q2,包括:
步骤S1:将所述目标文本的字词序列化为序列,得到序列数据集S,记i为一个序列的长度;
步骤S2:从所述字词序列中寻找长度为1的序列前缀和对应投影数据集;
步骤S3:将支持度小于1/α的前缀对应的项从所述序列数据集S删除,得到所有频繁1项序列,所述α为最小支持度阈值;
步骤S4:对于每个长度为i且满足支持度要求的序列的前缀进行如下递归挖掘:步骤S41、确定序列的前缀对应的投影数据集,若投影数据集为空,则递归返回;步骤S42、统计投影数据集中各项的支持度,若所有项的支持度都小于1/α,则递归返回;步骤S43、将支持度大于1/α的单项和当前的前缀进行合并,得到新的前缀;步骤S44、令i增加1,前缀为合并单项后的各个前缀,分别递归执行步骤S41至步骤S44,直至得到所述目标文本所有频繁序列...
【专利技术属性】
技术研发人员:刘志煌,胡林红,李冠灿,罗朝亮,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。