确定目标关键词的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39183014 阅读:9 留言:0更新日期:2023-10-27 08:30
本申请涉及一种确定目标关键词的方法、装置、电子设备及存储介质,该确定目标关键词的方法包括:获取目标段落中的关键词信息;所述目标段落包括至少一个句子;所述关键词信息包括关键词、所述关键词的出现位置以及所述关键词的出现频次;基于所述关键词的出现位置、所述关键词的出现频次,确定所述关键词作为目标关键词的概率;基于所述概率,将所述关键词中的至少一个确定为目标关键词。本申请中,通过上述过程,可在较小的关键词查找范围内,不依赖其他文本快速地确定目标关键词。赖其他文本快速地确定目标关键词。赖其他文本快速地确定目标关键词。

【技术实现步骤摘要】
确定目标关键词的方法、装置、电子设备及存储介质


[0001]本申请涉及文本处理领域,尤其涉及一种确定目标关键词的方法、装置、电子设备及存储介质。

技术介绍

[0002]对文书进行解析后,获得该文书的维度信息,以供决策者作为参考进行决策。另外,对文书中的单词进行提取得到的关键词,也是决策者进行决策的过程中的重要参考部分。在现有技术中,词频

逆文本频率指数(term frequency

inverse document frequency,TF

IDF)方法,作为一种用于信息检索与数据挖掘的常用加权技术,通常会被用于基于单词在文本中出现的频率和在文书库中含有该单词的文档的数量进行计算,确定该文本中的关键词。但是,这一方法中关键词查找范围较大,对文书库中的多个文本的依赖性较强且所查找到的关键词与其他文书的关联性较弱。

技术实现思路

[0003]本申请提供了一种确定目标关键词的方法、装置、电子设备及存储介质,以解决现有技术中关键词查找范围较大,对文书库中的多个文本的依赖性较强且所查找到的关键词与其他文书的关联性较弱的问题。
[0004]第一方面,本申请提供了一种确定目标关键词的方法,该确定目标关键词的方法包括:
[0005]获取目标段落中的关键词信息;所述目标段落包括至少一个句子;所述关键词信息包括关键词、所述关键词的出现位置以及所述关键词的出现频次;
[0006]基于所述关键词的出现位置、所述关键词的出现频次,确定所述关键词作为目标关键词的概率;
[0007]基于所述概率,将所述关键词中的至少一个确定为目标关键词。
[0008]可选地,在所述获取目标段落中的关键词信息之前,所述方法还包括:
[0009]对获取到的文本进行分段,得到至少一个段落;
[0010]根据获取到的文本的类型,确定对应的预设分段模型;
[0011]基于所述预设分段模型,确定所述至少一个段落中的目标段落。
[0012]可选地,所述获取目标段落中的关键词信息,包括:
[0013]基于所述目标段落所在文本的类型,确定对应的目标词库;
[0014]基于所述目标词库,对所述目标段落进行匹配,得到所述目标段落中的关键词、所述目标段落中的关键词的出现位置、所述目标段落中的关键词的出现频次。
[0015]可选地,所述基于所述关键词的出现位置、所述关键词的出现频次,确定所述关键词作为目标关键词的概率,包括:
[0016]针对所述目标段落中的任一关键词执行以下操作:
[0017]基于所述关键词的出现位置,确定所述关键词在所述目标段落的句子中的出现频
次;
[0018]将所述关键词在所述目标段落的所有句子中的出现频次之和,确定为所述关键词在所述目标段落的总的出现频次;
[0019]根据所述关键词的出现位置,确定所述目标段落中包含所述关键词的句子的数量;
[0020]根据所述关键词在所述目标段落的句子中的出现频次、所述句子的总词数、所述关键词在所述目标段落的总的出现频次、所述目标段落中的句子的数量以及所述目标段落中包含所述关键词的句子的数量,来确定所述关键词作为所述目标关键词的概率。
[0021]可选地,所述根据所述关键词在所述目标段落的句子中的出现频次、所述句子的总词数、所述关键词在所述目标段落的总的出现频次、所述目标段落中的句子的数量以及所述目标段落中包含所述关键词的句子的数量,来确定所述关键词作为所述目标关键词的概率,包括:
[0022]对于所述目标段落中的任一句子,确定所述关键词在句子中的出现频次与句子的总词数的比值,得到至少一个比值;
[0023]确定所述至少一个比值的平均值与所述目标段落中的句子的数量的乘积;
[0024]确定所述目标段落中包含关键词的句子的数量与预设值的和;
[0025]将所述乘积与所述和的比值,确定为所述关键词作为目标关键词的概率。
[0026]可选地,所述基于所述概率,将所述关键词中的至少一个确定为目标关键词,包括:
[0027]将最大概率对应的关键词,确定为所述目标关键词。
[0028]可选地,所述方法还包括:
[0029]基于所述关键词的出现位置,确定关键词在目标段落中的出现顺序;
[0030]按照关键词在目标段落中的出现顺序,为关键词添加标识;
[0031]基于关键词的标识与关键词的出现位置,记录所述目标段落中的关键词信息。
[0032]第二方面,本申请提供了一种确定目标关键词的装置,所述确定目标关键词的装置包括:
[0033]获取模块,用于获取目标段落中的关键词信息;所述目标段落包括至少一个句子;所述关键词信息包括关键词、所述关键词的出现位置以及所述关键词的出现频次;
[0034]第一确定模块,用于基于所述关键词的出现位置、所述关键词的出现频次,确定所述关键词作为目标关键词的概率;
[0035]第二确定模块,用于基于所述概率,将所述关键词中的至少一个确定为目标关键词。
[0036]第三方面,本申请提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
[0037]存储器,用于存放计算机程序;
[0038]处理器,用于执行存储器上所存放的程序时,实现第一方面任一项实施例所述的确定目标关键词的方法的步骤。
[0039]第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的确定目标关键词的方法的步骤。
[0040]本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
[0041]本申请实施例提供的确定目标关键词的方法,基于目标段落中的关键词信息即关键词、关键词的出现位置以及关键词的出现频次,在仅依赖关键词在文本的目标段落内的出现位置和出现频次,不依赖其他文本的情况下,在较小的关键词查找范围即目标段落内,较为快速准确地确定目标关键词。
附图说明
[0042]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。
[0043]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0044]图1为本申请实施例提供的一种确定目标关键词的方法的流程示意图;
[0045]图2为本申请实施例提供的一种目标段落中的关键词信息的示意图一;
[0046]图3为本申请实施例提供的一种目标段落中的关键词信息的示意图二;
[0047]图4为本申请实施例提供的一种目标段落中的关键词信息的示意图三;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种确定目标关键词的方法,其特征在于,所述方法包括:获取目标段落中的关键词信息;所述目标段落包括至少一个句子;所述关键词信息包括关键词、所述关键词的出现位置以及所述关键词的出现频次;基于所述关键词的出现位置、所述关键词的出现频次,确定所述关键词作为目标关键词的概率;基于所述概率,将所述关键词中的至少一个确定为目标关键词。2.根据权利要求1所述的确定目标关键词的方法,其特征在于,在所述获取目标段落中的关键词信息之前,所述方法还包括:对获取到的文本进行分段,得到至少一个段落;根据获取到的文本的类型,确定对应的预设分段模型;基于所述预设分段模型,确定所述至少一个段落中的目标段落。3.根据权利要求1所述的确定目标关键词的方法,其特征在于,所述获取目标段落中的关键词信息,包括:基于所述目标段落所在文本的类型,确定对应的目标词库;基于所述目标词库,对所述目标段落进行匹配,得到所述目标段落中的关键词、所述目标段落中的关键词的出现位置、所述目标段落中的关键词的出现频次。4.根据权利要求1所述的确定目标关键词的方法,其特征在于,所述基于所述关键词的出现位置、所述关键词的出现频次,确定所述关键词作为目标关键词的概率,包括:针对所述目标段落中的任一关键词执行以下操作:基于所述关键词的出现位置,确定所述关键词在所述目标段落的句子中的出现频次;将所述关键词在所述目标段落的所有句子中的出现频次之和,确定为所述关键词在所述目标段落的总的出现频次;根据所述关键词的出现位置,确定所述目标段落中包含所述关键词的句子的数量;根据所述关键词在所述目标段落的句子中的出现频次、所述句子的总词数、所述关键词在所述目标段落的总的出现频次、所述目标段落中的句子的数量以及所述目标段落中包含所述关键词的句子的数量,来确定所述关键词作为所述目标关键词的概率。5.根据权利要求4所述的确定目标关键词的方法,其特征在于,所述根据所述关键词在所述目标段落的句子中的出现频次、所述句子的总词数、所述关键词在所述目标段落的总的出现频次、所述目标段落中的句子的数量以...

【专利技术属性】
技术研发人员:赵虎
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1