一种关键短语确定方法、装置、设备及存储介质制造方法及图纸

技术编号:21605902 阅读:19 留言:0更新日期:2019-07-13 18:21
本申请提出一种关键短语确定方法、装置、设备及存储介质,其中,该关键短语确定方法包括:通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从所述目标文本中选出候选关键短语,以及从所述预设的关键短语集合中选出匹配关键短语;分别获取每个候选关键短语的隐语义向量以及每个匹配关键短语的语义向量;根据每个候选关键短语的隐语义向量与每个匹配关键短语的语义向量之间的相似度,从所述候选关键短语和/或所述匹配关键短语中确定出所述目标文本的关键短语。上述处理过程不需要人工干预,可以自动化地确定目标文本的关键短语,并且可以提高选出的关键短语的准确度。

A Key Phrase Determination Method, Device, Equipment and Storage Media

【技术实现步骤摘要】
一种关键短语确定方法、装置、设备及存储介质
本申请涉及自然语言处理
,更具体的说,尤其涉及一种关键短语确定方法、装置、设备及存储介质。
技术介绍
关键短语,是指能够表示文本或文本集合的主题的词或短语。确定文本或文本集合的关键短语,是文本检索、文本挖掘等文本处理的基础性和必要性工作。近年来,随着移动互联网技术和人工智能技术的发展,人们越发渴望能让机器自动确定出文本的关键短语,从而实现减少确定文本关键短语的人工投入、节省劳动力的目的。
技术实现思路
基于上述的技术需求,本申请提出一种关键短语确定方法、装置、设备及存储介质,可以实现自动确定文本的关键短语。该技术方案具体如下:一种关键短语确定方法,包括:通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从所述目标文本中选出候选关键短语,以及从所述预设的关键短语集合中选出匹配关键短语;分别获取每个候选关键短语的隐语义向量以及每个匹配关键短语的语义向量;其中,所述语义向量由预设语料库中与所述匹配关键短语匹配的语句的隐语义向量确定;根据每个候选关键短语的隐语义向量与每个匹配关键短语的语义向量之间的相似度,从所述候选关键短语和/或所述匹配关键短语中确定出所述目标文本的关键短语。可选的,所述通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从所述目标文本中选出候选关键短语,包括:对目标文本进行分词处理,得到文本词串;从所述文本词串中,筛选出与预设的关键短语集合中的关键短语存在设定的相同分词的短语,作为候选关键短语。可选的,分别获取每个匹配关键短语的语义向量,包括:从预设的语料库中,分别筛选出与每个匹配关键短语匹配的语句;根据与每个匹配关键短语匹配的语句的隐语义向量,分别计算得到每个匹配关键短语的语义向量。其中,所述从预设的语料库中,分别筛选出与每个匹配关键短语匹配的语句,包括:从预设的语料库中,分别筛选出与每个匹配关键短语存在设定的相同分词的语句,作为与每个匹配关键短语匹配的语句。其中,所述根据与每个匹配关键短语匹配的语句的隐语义向量,分别计算得到每个匹配关键短语的语义向量,包括:对应于每个匹配关键短语,分别执行以下操作:计算与匹配关键短语匹配的语句的隐语义向量的平均值,作为该匹配关键短语的语义向量。可选的,所述预设的关键短语集合的构建过程,包括:对预设的文本语句分别进行文本分词和消除停用词处理,得到分词集合;其中,所述文本语句为与所述目标文本相同领域的文本语句;对所述分词集合中的分词进行聚类处理,得到多个分词子集合;根据各个分词子集合的中心分词,确定所述各个分词子集合的关键短语;利用所述各个分词子集合的关键短语构建得到关键短语集合。一种关键短语确定装置,包括:短语选取单元,用于通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从所述目标文本中选出候选关键短语,以及从所述预设的关键短语集合中选出匹配关键短语;向量获取单元,用于分别获取每个候选关键短语的隐语义向量以及每个匹配关键短语的语义向量;其中,所述语义向量由预设语料库中与所述匹配关键短语匹配的语句的隐语义向量确定;短语确定单元,用于根据每个候选关键短语的隐语义向量与每个匹配关键短语的语义向量之间的相似度,从所述候选关键短语和/或所述匹配关键短语中确定出所述目标文本的关键短语。可选的,所述短语选取单元,包括:分词处理单元,用于对目标文本进行分词处理,得到文本词串;短语筛选单元,用于从所述文本词串中,筛选出与预设的关键短语集合中的关键短语存在设定的相同分词的短语,作为候选关键短语。可选的,所述向量获取单元包括:语句筛选单元,用于从预设的语料库中,分别筛选出与每个匹配关键短语匹配的语句;向量计算单元,用于根据与每个匹配关键短语匹配的语句的隐语义向量,分别计算得到每个匹配关键短语的语义向量。其中,所述语句筛选单元从预设的语料库中,分别筛选出与每个匹配关键短语匹配的语句时,具体用于:从预设的语料库中,分别筛选出与每个匹配关键短语存在设定的相同分词的语句,作为与每个匹配关键短语匹配的语句。其中,所述向量计算单元根据与每个匹配关键短语匹配的语句的隐语义向量,分别计算得到每个匹配关键短语的语义向量时,具体用于:对应于每个匹配关键短语,分别执行以下操作:计算与匹配关键短语匹配的语句的隐语义向量的平均值,作为该匹配关键短语的语义向量。可选的,所述预设的关键短语集合的构建过程,包括:对预设的文本语句分别进行文本分词和消除停用词处理,得到分词集合;其中,所述文本语句为与所述目标文本相同领域的文本语句;对所述分词集合中的分词进行聚类处理,得到多个分词子集合;根据各个分词子集合的中心分词,确定所述各个分词子集合的关键短语;利用所述各个分词子集合的关键短语构建得到关键短语集合。一种关键短语确定设备,包括:存储器和处理器;其中,所述存储器与所述处理器连接,用于存储程序;所述处理器,用于通过运行所述存储器中存储的程序,实现以下功能:通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从所述目标文本中选出候选关键短语,以及从所述预设的关键短语集合中选出匹配关键短语;分别获取每个候选关键短语的隐语义向量以及每个匹配关键短语的语义向量;其中,所述语义向量由预设语料库中与所述匹配关键短语匹配的语句的隐语义向量确定;根据每个候选关键短语的隐语义向量与每个匹配关键短语的语义向量之间的相似度,从所述候选关键短语和/或所述匹配关键短语中确定出所述目标文本的关键短语。一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现上述的关键短语确定方法。本申请提出的关键短语确定方法,通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从目标文本中选出候选关键短语,以及从预设的关键短语集合中选出匹配关键短语;然后,分别获取每个候选关键短语的隐语义向量,以及分别由预设语料库中与匹配关键短语匹配的语句的隐语义向量确定每个匹配关键短语的语义向量;最后,根据每个候选关键短语的隐语义向量与每个匹配关键短语的语义向量之间的相似度,从候选关键短语和/或匹配关键短语中确定出目标文本的关键短语。上述处理过程不需要人工干预,可以自动化地确定目标文本的关键短语。进一步的,本申请技术方案中的上述匹配关键短语的语义向量,是根据预设语料库中的,与匹配关键短语匹配的语句的隐语义向量确定的,因此该语义向量包含与匹配关键短语匹配的各个语句的语义信息。该语义向量所能够表示的语义并不仅限于某一个语句或某一种形式的语句的语义,而是能够表示与匹配关键短语匹配的各个语句的语义,因此是泛化的语义向量。在此基础上,本申请技术方案根据上述候选关键短语的隐语义向量和上述匹配关键短语的语义向量之间的相似度,从上述匹配关键短语和/或上述候选关键短语中确定出目标文本的关键短语,可以使选出的关键短语更准确。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1是本申请实施例提供的一种关键短语确定方法的流程示意图;图2是本申请实施例提供的通过将目标文本与预设的关本文档来自技高网...

【技术保护点】
1.一种关键短语确定方法,其特征在于,包括:通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从所述目标文本中选出候选关键短语,以及从所述预设的关键短语集合中选出匹配关键短语;分别获取每个候选关键短语的隐语义向量以及每个匹配关键短语的语义向量;其中,所述语义向量由预设语料库中与所述匹配关键短语匹配的语句的隐语义向量确定;根据每个候选关键短语的隐语义向量与每个匹配关键短语的语义向量之间的相似度,从所述候选关键短语和/或所述匹配关键短语中确定出所述目标文本的关键短语。

【技术特征摘要】
1.一种关键短语确定方法,其特征在于,包括:通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从所述目标文本中选出候选关键短语,以及从所述预设的关键短语集合中选出匹配关键短语;分别获取每个候选关键短语的隐语义向量以及每个匹配关键短语的语义向量;其中,所述语义向量由预设语料库中与所述匹配关键短语匹配的语句的隐语义向量确定;根据每个候选关键短语的隐语义向量与每个匹配关键短语的语义向量之间的相似度,从所述候选关键短语和/或所述匹配关键短语中确定出所述目标文本的关键短语。2.根据权利要求1所述的方法,其特征在于,所述通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从所述目标文本中选出候选关键短语,包括:对目标文本进行分词处理,得到文本词串;从所述文本词串中,筛选出与预设的关键短语集合中的关键短语存在设定的相同分词的短语,作为候选关键短语。3.根据权利要求1所述的方法,其特征在于,分别获取每个匹配关键短语的语义向量,包括:从预设的语料库中,分别筛选出与每个匹配关键短语匹配的语句;根据与每个匹配关键短语匹配的语句的隐语义向量,分别计算得到每个匹配关键短语的语义向量。4.根据权利要求3所述的方法,其特征在于,所述从预设的语料库中,分别筛选出与每个匹配关键短语匹配的语句,包括:从预设的语料库中,分别筛选出与每个匹配关键短语存在设定的相同分词的语句,作为与每个匹配关键短语匹配的语句。5.根据权利要求3所述的方法,其特征在于,所述根据与每个匹配关键短语匹配的语句的隐语义向量,分别计算得到每个匹配关键短语的语义向量,包括:对应于每个匹配关键短语,分别执行以下操作:计算与匹配关键短语匹配的语句的隐语义向量的平均值,作为该匹配关键短语的语义向量。6.根据权利要求1所述的方法,其特征在于,所述预设的关键短语集合的构建过程,包括:对预设的文本语句分别进行文本分词和消除停用词处理,得到分词集合;其中,所述文本语句为与所述目标文本相同领域的文本语句;对所述分词集合中的分...

【专利技术属性】
技术研发人员:戴瑾
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1