关键词识别方法、装置、设备、介质及计算机程序产品制造方法及图纸

技术编号:32005320 阅读:12 留言:0更新日期:2022-01-22 18:21
本申请公开了一种关键词识别方法、装置、设备、介质及计算机程序产品,涉及数据分析技术领域。该方法包括:获取目标文本;以字符为单位对目标文本进行特征提取,得到目标文本中的字符特征;对目标文本进行分词处理,得到目标文本中的至少两个分词词汇;基于字符特征获取分词词汇的词汇特征;对至少一个词汇特征组成的候选特征进行关键词预测,得到至少一个候选特征对应的关键词概率;基于关键词概率确定目标文本对应的关键词。通过以上方式,可以让候选特征充分融合目标文本中的语义信息,使得关键词识别过程的灵活度更高,克服了依赖词库中存储的关键词对目标文本进行关键词识别的局限性。本申请可应用于云技术、人工智能、智慧交通等各种场景。通等各种场景。通等各种场景。

【技术实现步骤摘要】
关键词识别方法、装置、设备、介质及计算机程序产品


[0001]本申请实施例涉及数据分析
,特别涉及一种关键词识别方法、装置、设备、介质及计算机程序产品。

技术介绍

[0002]处理海量的文本数据时,最关键的是要把有价值的内容提取出来。而无论是对于长文本还是短文本,往往可以通过几个关键词窥探整个文本的主题思想。因此,关键词识别在推荐系统、信息检索领域的应用也十分广泛,关键词识别的准确程度直接关系到推荐系统的构建是否完善以及信息检索结果是否合格。
[0003]相关技术中,基于预先构建好的词库实现关键词识别,查找文本中所有包含在词库中的候选关键词,再确定候选关键词与文本之间的匹配得分,最后将所有候选关键词按匹配得分从高到低排序,选择匹配得分高于预设阈值的候选关键词作为结果输出。
[0004]然而,通过将待检测关键词的文本与预先构建好的词库进行比较分析,虽然能提取到关键词,但也会造成过于依赖词库的情况发生,导致当词库中不存在待检测文本的关键词时,无法灵活对待检测文本的关键词进行识别,从而导致关键词识别的局限性过大。

技术实现思路

[0005]本申请实施例提供了一种关键词识别方法、装置、设备、介质及计算机程序产品,能够提高关键词识别的准确率。所述技术方案如下。
[0006]一方面,提供了一种关键词识别方法,所述方法包括:获取目标文本,所述目标文本为待进行关键词识别的文本;以字符为单位对所述目标文本进行特征提取,得到所述目标文本中的字符特征;对所述目标文本进行分词处理,得到所述目标文本中的至少两个分词词汇;基于所述字符特征获取所述分词词汇的词汇特征;对至少一个词汇特征组成的候选特征进行关键词预测,得到至少一个候选特征对应的关键词概率,其中,当至少两个词汇特征组成所述候选特征时,所述至少两个词汇特征为相邻特征;基于所述关键词概率确定所述目标文本对应的关键词。
[0007]另一方面,提供了一种关键词识别装置,所述装置包括:文本获取模块,用于获取目标文本,所述目标文本为待进行关键词识别的文本;提取模块,用于以字符为单位对所述目标文本进行特征提取,得到所述目标文本中的字符特征;分词模块,用于对所述目标文本进行分词处理,得到所述目标文本中的至少两个分词词汇;特征获取模块,用于基于所述字符特征获取所述分词词汇的词汇特征;预测模块,用于对至少一个词汇特征组成的候选特征进行关键词预测,得到至少
一个候选特征对应的关键词概率,其中,当至少两个词汇特征组成所述候选特征时,所述至少两个词汇特征为相邻特征;确定模块,用于基于所述关键词概率确定所述目标文本对应的关键词。
[0008]另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述关键词识别方法。
[0009]另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的关键词识别方法。
[0010]另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的关键词识别方法。
[0011]本申请实施例提供的技术方案带来的有益效果至少包括:本实施例提供的方法中,对目标文本进行关键词识别,首先以字符为单位对目标文本进行字符提取得到字符特征,之后对目标文本进行分词处理得到至少两个分词词汇,基于分词词汇中字符对应的字符特征得到至少两个分词词汇的词汇特征,再对词汇特征进行组合得到候选特征,基于对候选特征进行关键词预测得到关键词概率后确定目标文本中的关键词。通过以上方式,既可以对目标文本中字符特征进行更细颗粒度的分析,还可以让分词词汇之间具有更强的词义边界,而候选特征更充分融合了目标文本中的语义信息,使得关键词识别过程的灵活度更高,克服了依赖词库中存储的关键词对目标文本进行关键词识别的局限性。
附图说明
[0012]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0013]图1是本申请一个示例性实施例提供的实施环境示意图;图2是本申请一个示例性实施例提供的关键词识别方法的流程图;图3是本申请另一个示例性实施例提供的关键词识别方法的流程图;图4是本申请另一个示例性实施例提供的关键词识别方法的流程图;图5是本申请另一个示例性实施例提供的关键词识别方法的流程图;图6是本申请一个示例性实施例提供的关键词识别方法的过程示意图;图7是本申请一个示例性实施例提供的关键词识别装置的结构框图;图8是本申请另一个示例性实施例提供的关键词识别装置的结构框图;图9是本申请一个示例性实施例提供的服务器的结构框图。
具体实施方式
[0014]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0015]首先,针对本申请实施例中涉及的名词进行简单介绍。
[0016]机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
[0017]相关技术中,基于文本匹配的关键词识别方法通常依赖于预先建设好的关键词词库,首先从词库中查找出所有包含在输入文本中的候选关键词,再使用文本匹配模型对文本和每个候选关键词计算匹配得分。然而,基于文本匹配的方法只能抽取出已经收录在词库中的关键词,对于词库中缺少的词汇或者需要发现新关键词的场景,该方法并不适用。
[0018]本申请实施例中,提供了一种关键词识别方法,对文本数据中的字符、分词等进行向量分析得到对应的向量表示,通过计算分词为关键词的概率,对分词自动进行关键词识别,提高关键词识别的准确率。针对本申请训练得到的关键词识别方法,在应用时包括如下场景中的至少一种。
[0019]一:信息检索系统。
[0020]信息检索系统是指根据特定的信息需求而建立起来的一种有关信息搜集、加工、存储和检索的程序化系统,至少包括信息存储、信息检索功能,可以为用户提供信息检本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词识别方法,其特征在于,所述方法包括:获取目标文本,所述目标文本为待进行关键词识别的文本;以字符为单位对所述目标文本进行特征提取,得到所述目标文本中的字符特征;对所述目标文本进行分词处理,得到所述目标文本中的至少两个分词词汇;基于所述字符特征获取所述分词词汇的词汇特征;对至少一个词汇特征组成的候选特征进行关键词预测,得到至少一个候选特征对应的关键词概率,其中,当至少两个词汇特征组成所述候选特征时,所述至少两个词汇特征为相邻特征;基于所述关键词概率确定所述目标文本对应的关键词。2.根据权利要求1所述的方法,其特征在于,所述对至少一个词汇特征组成的候选特征进行关键词预测,得到至少一个候选特征对应的关键词概率,包括:对所述词汇特征进行关键词预测,得到所述词汇特征对应的第一关键词概率;对至少两个相邻词汇特征组成的候选特征进行关键词预测,得到所述候选特征对应的候选关键词概率;基于所述第一关键词概率和所述候选关键词概率确定所述目标文本对应的关键词概率。3.根据权利要求2所述的方法,其特征在于,所述对至少两个相邻词汇特征组成的候选特征进行关键词预测,得到所述候选特征对应的候选关键词概率,包括:对相邻两个词汇特征组成的第一候选特征进行关键词预测,得到所述第一候选特征对应的第二关键词概率;或,对相邻三个词汇特征组成的第二候选特征进行关键词预测,得到所述第二候选特征对应的第三关键词概率。4.根据权利要求2所述的方法,其特征在于,所述对至少两个相邻词汇特征组成的候选特征进行关键词预测,得到所述候选特征对应的候选关键词概率,包括:基于所述至少两个词汇特征对应的词汇数量,对所述至少两个相邻词汇特征进行特征计算,得到所述候选特征;对所述候选特征进行回归预测,得到所述候选特征对应的所述候选关键词概率。5.根据权利要求1至4任一所述的方法,其特征在于,所述基于所述字符特征获取所述分词词汇的词汇特征,包括:基于所述分词词汇,确定所述分词词汇中包含的至少一个分词字符,所述分词字符包含于所述字符中;从所述目标文本的字符特征中获取所述分词字符对应的分词字符特征;对所述分词字符特征进行向量计算,得到所述分词词汇的所述词汇特征。6.根据权利要求1至4任一所述的方法,其特征在于,所述基于所述关键词概率确定所述目标文本对应的关键词,包括:对所述关键词概率进行降序排序,基于排序结果确定所述目标文本对应的关键词;或者,将所述关键词概率达到预设概率阈值的关键词确定为所述目标文本对应的关键词。
7.根据权利要求6所述的方法,其特征在于,对所述关键词概率进行降序排序,所述基于排序结果确定所述目标文本对应的关键词,包括:对所述关键词概率进行降序排序,得到关键词概率序列;确定所述关键词概率序列中前n个关键词概率对应的关键词作为所述目标文本对应的关键词,n为正整数。8.根据权利要求1至4任一所述的方法,其特征在于,所述以字符为...

【专利技术属性】
技术研发人员:廖阔唐晶
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1