提取文本关键词的方法、设备和计算机可读存储介质技术

技术编号:26377580 阅读:19 留言:0更新日期:2020-11-19 23:46
本申请涉及自然语言处理领域,提供了一种提取文本关键词的方法、装置、设备和计算机可读存储介质。所述方法包括:通过统计模型,获取目标文本的全局主题词,以得到目标文本的全局主题特征

【技术实现步骤摘要】
提取文本关键词的方法、设备和计算机可读存储介质
本申请涉及自然语言处理领域,特别涉及一种提取文本关键词的方法、设备和计算机可读存储介质。
技术介绍
自然语言处理(NatureLanguageProcessing,NLP)是人工智能(ArtificialIntelligence,AI)领域的一个重要方向,而文本中关键词的提取又是NLP的典型应用。提取文本关键词的实际应用场景非常广泛,例如,对于海量文本数据的处理和分析,关键一步是将文本中的最重要的信息提取出来,而重要信息往往通过几个关键词就可以表征;又如,在百度文库等检索系统中,通过提取文章关键词与检索词进行匹配或相似度计算等,可以提高所召回结果的准确性,等等。现有的提取文本关键词的方法是将待提取文本进行分词后选取候选关键词,根据语料学习得到主题模型,再由主题模型计算文本的主题分布和候选关键词分布,最后计算主题和候选关键词的相似度,选取相似度较高的前n个词作为关键词。然而,上述现有的提取文本关键词方法获取的是全局主题信息,最后得到的关键词不一定就是文本真实的关键词,因而还是存在精度不高的问题。
技术实现思路
本申请实施例提供了一种提取文本关键词的方法、设备和计算机可读存储介质,以解决现有提取文本关键词时精度不高的问题。该技术方案如下:一方面,提供了一种提取文本关键词的方法,该方法包括:通过统计模型,获取目标文本的全局主题词,以得到所述目标文本的全局主题特征q1;挖掘所述目标文本的频繁序列模式,以得到所述目标文本的关键词局部特征q2;提取所述目标文本的候选关键词,构成候选关键词集;以特征集Q作为贝叶斯模型的输入,根据所述贝叶斯模型在满足第一条件时从所述候选关键词集确定的关键词a,将所述关键词a作为所述目标文本的关键词,所述特征集Q包括所述目标文本的全局主题特征q1和关键词局部特征q2,所述第一条件为所述贝叶斯模型求取条件概率P(A|Q)不小于第一预设阈值,所述A为所述候选关键词集。一方面,提供了一种提取文本关键词的装置,该装置包括:第一特征获取模块,用于通过统计模型,获取目标文本的全局主题词,以得到所述目标文本的全局主题特征q1;第二特征获取模块,用于挖掘所述目标文本的频繁序列模式,以得到所述目标文本的关键词局部特征q2;提取模块,用于提取所述目标文本的候选关键词,构成候选关键词集;关键词确定模块,用于以特征集Q作为贝叶斯模型的输入,根据所述贝叶斯模型在满足第一条件时从所述候选关键词集确定的关键词a,将所述关键词a作为所述目标文本的关键词,所述特征集Q包括所述目标文本的全局主题特征q1和关键词局部特征q2,所述第一条件为所述贝叶斯模型求取条件概率P(A|Q)不小于第一预设阈值,所述A为所述候选关键词集。一方面,提供了一种计算机设备,该计算设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,该计算机程序代码由该一个或多个处理器加载并执行以实现该提取文本关键词的方法所执行的操作。一方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序由处理器加载并执行以实现该提取文本关键词的方法所执行的操作。从上述本申请提供的技术方案可知,一方面,由于一个文本的关键词不仅与全局信息相关,还与局部信息相关,因此,本申请实施例基于目标文本的全局主题特征q1和关键词局部特征q2等更多维度的提取而得到目标文本的关键词,其精度要高于现有技术仅仅基于全局信息获取的文本关键词的精度;另一方面,由于目标文本的全局主题特征q1与目标文本的关键词局部特征q2的相关度很小即满足贝叶斯模型的特征独立性的假设,因此,能够应用贝叶斯模型这一经典模型提取关键词,在计算效率上有了提高的可能。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的提取文本关键词的方法的流程图;图2是本申请实施例提供的某个前缀对应的后缀以及<a>、<b>、<c>、<d>、<e>和<f>的支持度等信息的示意图;图3是本申请实施例提供的分别从长度为1的频繁序列开始,挖掘频繁序列的示意图;图4是本申请实施例提供的一种提取文本关键词的装置的结构示意图;图5是本申请实施例提供的一种计算机设备的结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。本申请实施例基于计算机设备作为执行主体来进行介绍。此处的计算机设备可以是服务器,也可以是终端,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器,而终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。上述终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本申请实施例实施的载体即云服务器,其具体是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术的服务器,其中,云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云技术需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,每个物品都存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾,通过云计算来实现。如前所述,云技术需要大量的数据资源以及基于大量数据资源的计算能力,这必然涉及大数据和人工智能云服务等作为支撑基础,其中的大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,而随着云技术时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据,适用于大数据的技术包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。另一方面,人工智能(ArtificialIntelligence,AI)与上述的大数据和/或云技术相结合,产生了人工智能云服务即AIaaS(AIasaService)。AIaaS是目前主流的一种人工智能平台的服务方式,具体而言,A本文档来自技高网...

【技术保护点】
1.一种提取文本关键词的方法,其特征在于,所述方法包括:/n通过统计模型,获取目标文本的全局主题词,以得到所述目标文本的全局主题特征

【技术特征摘要】
1.一种提取文本关键词的方法,其特征在于,所述方法包括:
通过统计模型,获取目标文本的全局主题词,以得到所述目标文本的全局主题特征q1;
挖掘所述目标文本的频繁序列模式,以得到所述目标文本的关键词局部特征q2;
提取所述目标文本的候选关键词,构成候选关键词集;
以特征集Q作为贝叶斯模型的输入,根据所述贝叶斯模型在满足第一条件时从所述候选关键词集确定的关键词a,将所述关键词a作为所述目标文本的关键词,所述特征集Q包括所述目标文本的全局主题特征q1和关键词局部特征q2,所述第一条件为所述贝叶斯模型求取条件概率P(A|Q)不小于第一预设阈值,所述A为所述候选关键词集。


2.如权利要求1所述提取文本关键词的方法,其特征在于,所述通过统计模型,获取目标文本的全局主题词,以得到所述目标文本的全局主题特征q1,包括:
采用狄利克雷分布LDA模型,提取所述目标文本的主题分布向量;
对所述目标文本进行分词以得到所述目标文本的词语,并通过词嵌入获取所述词语的词向量;
计算所述词语的词向量与所述目标文本的主题分布向量的相似度,将所述词语中词向量与所述主题分布向量的相似度大于预设阈值的词语确定为所述目标文本的全局主题词。


3.如权利要求2所述提取文本关键词的方法,其特征在于,所述方法还包括:
将所述目标文本的全局主题词进行聚类,聚类后得到的主题标签作为所述目标文本的全局主题特征q1。


4.如权利要求1所述提取文本关键词的方法,其特征在于,所述挖掘所述目标文本的频繁序列模式,以得到所述目标文本的关键词局部特征q2,包括:
步骤S1:将所述目标文本的字词序列化为序列,得到序列数据集S,记i为一个序列的长度;
步骤S2:从所述字词序列中寻找长度为1的序列前缀和对应投影数据集;
步骤S3:将支持度小于1/α的前缀对应的项从所述序列数据集S删除,得到所有频繁1项序列,所述α为最小支持度阈值;
步骤S4:对于每个长度为i且满足支持度要求的序列的前缀进行如下递归挖掘:步骤S41、确定序列的前缀对应的投影数据集,若投影数据集为空,则递归返回;步骤S42、统计投影数据集中各项的支持度,若所有项的支持度都小于1/α,则递归返回;步骤S43、将支持度大于1/α的单项和当前的前缀进行合并,得到新的前缀;步骤S44、令i增加1,前缀为合并单项后的各个前缀,分别递归执行步骤S41至步骤S44,直至得到所述目标文本所有频繁序列...

【专利技术属性】
技术研发人员:刘志煌胡林红李冠灿罗朝亮
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1