一种关键词的确定方法、装置、电子设备和存储介质制造方法及图纸

技术编号:24331216 阅读:45 留言:0更新日期:2020-05-29 19:40
本公开提供了一种关键词的确定方法、装置、电子设备和存储介质,其中,该方法包括:利用目标分词词典对目标文本进行切词处理,得到所述目标文本包括的待召回词语;对各所述待召回词语按照不同特征维度进行召回,得到不同特征维度下的召回结果;根据所述召回结果中包含的各个词语的词向量,确定每个所述词向量和所述目标文本的文本向量之间的相似度;根据所述相似度,确定所述目标文本的关键词,通过上述方法确定出来的关键词为与目标文本关联程度相对较高的关键词,因此通过上述方法有利于提高确定出的关键词的准确度,进而可以为目标文本的准确推荐和准确搜索提供支持。

A method, device, electronic equipment and storage medium for determining key words

【技术实现步骤摘要】
一种关键词的确定方法、装置、电子设备和存储介质
本公开涉及计算机
,具体而言,涉及一种关键词的确定方法、装置、电子设备和存储介质。
技术介绍
对于一些资讯平台,平台内部充斥着海量的文本内容,用户想要准确的将内容搜索出来,或者平台将文本内容准确的推送给对应用户都需要依赖关键词,因此,如何准确确定文本内容中的关键词成为了搜索和推荐的关键技术。在相关技术中,在确定文本内容的关键词时,通常基于文本内容中的词频来进行确定,即:对文本内容中出现频率最高的词语进行召回,然后将召回的词语确定为该文本内容的关键词,但是,文本内容中出现频率最高的词语有时并一定与该文本内容不相关,从而使得确定出来的关键词的准确度相对较低。
技术实现思路
有鉴于此,本公开实施例的目的在于提供一种关键词的确定方法、装置、电子设备和存储介质,以提高确定出来的关键词的准确度。第一方面,本公开实施例提供了一种关键词的确定方法,包括:利用目标分词词典对目标文本进行切词处理,得到所述目标文本包括的待召回词语;对各所述待召回词语按照不同特征维度进行召回,得到不同特征维度下的召回结果;根据所述召回结果中包含的各个词语的词向量,确定每个所述词向量和所述目标文本的文本向量之间的相似度;根据所述相似度,确定所述目标文本的关键词。可选地,所述特征维度包括以下至少两种:实体词语、名词词语,以及各所述待召回词语和目标文本关联程度的统计结果。可选地,当所述特征维度为所述实体词语时,对各所述待召回词语按照不同特征维度进行召回,得到不同特征维度下的召回结果,包括:对每个所述待召回词语进行实体识别,确定该待召回词语是否为所述实体词语,以识别出的各所述待召回词语中的所述实体词语作为所述召回结果。可选地,当所述特征维度为所述名词词语时,对各所述待召回词语按照不同特征维度进行召回,得到不同特征维度下的召回结果,包括:对每个所述待召回词语进行词性识别,确定该待召回词语是否为所述名词词语,以将识别出的各所述待召回词语中的所述名词词语作为所述召回结果。可选地,当所述特征维度为所述统计结果时,对各所述待召回词语按照不同特征维度进行召回,得到不同特征维度下的召回结果,包括:确定各所述待召回词语在所述目标文本中出现的频率,以及各所述待召回词语在目标语料库中的逆文档频率;计算所述频率和所述逆文档频率的乘积;对所述待召回词语分别对应的所述乘积进行第一排序,以将第一排序结果中排名位于前K个的所述乘积对应的所述待召回词语作为所述召回结果;其中,K为正整数。可选地,根据所述相似度,确定所述目标文本的关键词,包括:对所述相似度进行第二排序,以将第二排序结果中排名位于前T个的所述相似度对应的所述召回结果确定为所述关键词;其中,T为正整数。可选地,所述方法还包括:获取预设时间段内在目标应用程序中进行搜索时使用的搜索语句;确定所述搜索语句中包括的最细粒度单元能够构成的新词;将所述新词添加到指定分词词典中,以得到所述目标分词词典。可选地,确定所述搜索语句中包括的最细粒度单元能够构成的新词,包括:计算每两个所述最细粒度单元之间的关联性特征值;将所述关联性特征值作为输入参数输入到指定的树模型中,以得到所述两个最细粒度单元能够构成词语的概率;对所述概率和预设阈值进行比较,以将超过所述预设阈值的所述概率对应的两个所述最细粒度单元构成的词语确定为所述新词。可选地,所述关联性特征值包括以下至少一种:每两个所述最细粒度单元之间共现频率、每两个所述最细粒度单元之间点互信息PMI、每两个所述最细粒度单元之间右熵、每两个所述最细粒度单元之间左熵,以及每两个所述最细粒度单元构成词语时在所述搜索语句中出现的频率。第二方面,本公开实施例提供了一种关键词的确定装置,包括:第一切词单元,用于利用目标分词词典对目标文本进行切词处理,得到所述目标文本包括的待召回词语;召回单元,用于对各所述待召回词语按照不同特征维度进行召回,得到不同特征维度下的召回结果;计算单元,用于根据所述召回结果中包含的各个词语的词向量,确定每个所述词向量和所述目标文本的文本向量之间的相似度;确定单元,用于根据所述相似度,确定所述目标文本的关键词。可选地,所述特征维度包括以下至少一种:实体词语、名词词语,以及各所述待召回词语和目标文本关联程度的统计结果。可选地,当所述特征维度为所述实体词语时,所述召回单元的配置在用于对各所述待召回词语按照不同特征维度进行召回,得到不同特征维度下的召回结果时,包括:对每个所述待召回词语进行实体识别,确定该待召回词语是否为所述实体词语,以识别出的各所述待召回词语中的所述实体词语作为所述召回结果。可选地,当所述特征维度为所述名词词语时,所述召回单元的配置在用于对各所述待召回词语按照不同特征维度进行召回,得到不同特征维度下的召回结果时,包括:对每个所述待召回词语进行词性识别,确定该待召回词语是否为所述名词词语,以将识别出的各所述待召回词语中的所述名词词语作为所述召回结果。可选地,当所述特征维度为所述统计结果时,所述召回单元的配置在用于对各所述待召回词语按照不同特征维度进行召回,得到不同特征维度下的召回结果时,包括:确定各所述待召回词语在所述目标文本中出现的频率,以及各所述待召回词语在目标语料库中的逆文档频率;计算所述频率和所述逆文档频率的乘积;对所述待召回词语分别对应的所述乘积进行第一排序,以将第一排序结果中排名位于前K个的所述乘积对应的所述待召回词语作为所述召回结果;其中,K为正整数。可选地,所述确定单元的配置在用于根据所述相似度,确定所述目标文本的关键词时,包括:对所述相似度进行第二排序,以将第二排序结果中排名位于前T个的所述相似度对应的所述召回结果确定为所述关键词;其中,T为正整数。可选地,所述确定装置还包括:获取单元,用于获取预设时间段内在目标应用程序中进行搜索时使用的搜索语句;第二切词单元,用于确定所述搜索语句中包括的最细粒度单元能够构成的新词;添加单元,用于将所述新词添加到指定分词词典中,以得到所述目标分词词典。可选地,所述第二切词单元的配置在用于确定所述搜索语句中包括的最细粒度单元能够构成的新词时,包括:计算每两个所述最细粒度单元之间的关联性特征值;将所述关联性特征值作为输入参数输入到指定的树模型中,以得到所述两个最细粒度单元能够构成词语的概率;对所述概率和预设阈值进行比较,以将超过所述预设阈值的所述概率对应的两个所述最细粒度单元构成的词语确定为所述新词。可选地,所述关联性特征值包括以下至少一种:每两个所述最细粒度单元之间共现频率、每两个所述最细粒度单元之间点互信息PMI、每两个所述最细粒度单元本文档来自技高网...

【技术保护点】
1.一种关键词的确定方法,其特征在于,包括:/n利用目标分词词典对目标文本进行切词处理,得到所述目标文本包括的待召回词语;/n对各所述待召回词语按照不同特征维度进行召回,得到不同特征维度下的召回结果;/n根据所述召回结果中包含的各个词语的词向量,确定每个所述词向量和所述目标文本的文本向量之间的相似度;/n根据所述相似度,确定所述目标文本的关键词。/n

【技术特征摘要】
1.一种关键词的确定方法,其特征在于,包括:
利用目标分词词典对目标文本进行切词处理,得到所述目标文本包括的待召回词语;
对各所述待召回词语按照不同特征维度进行召回,得到不同特征维度下的召回结果;
根据所述召回结果中包含的各个词语的词向量,确定每个所述词向量和所述目标文本的文本向量之间的相似度;
根据所述相似度,确定所述目标文本的关键词。


2.如权利要求1所述的确定方法,其特征在于,所述特征维度包括以下至少两种:
实体词语、名词词语,以及各所述待召回词语和目标文本关联程度的统计结果。


3.如权利要求2所述的确定方法,其特征在于,当所述特征维度为所述实体词语时,对各所述待召回词语按照不同特征维度进行召回,得到不同特征维度下的召回结果,包括:
对每个所述待召回词语进行实体识别,确定该待召回词语是否为所述实体词语,以识别出的各所述待召回词语中的所述实体词语作为所述召回结果。


4.如权利要求2所述的确定方法,其特征在于,当所述特征维度为所述名词词语时,对各所述待召回词语按照不同特征维度进行召回,得到不同特征维度下的召回结果,包括:
对每个所述待召回词语进行词性识别,确定该待召回词语是否为所述名词词语,以将识别出的各所述待召回词语中的所述名词词语作为所述召回结果。


5.如权利要求2所述的确定方法,其特征在于,当所述特征维度为所述统计结果时,对各所述待召回词语按照不同特征维度进行召回,得到不同特征维度下的召回结果,包括:
确定各所述待召回词语在所述目标文本中出现的频率,以及各所述待召回词语在目标语料库中的逆文档频率;
计算所述频率和所述逆文档频率的乘积;
对所述待召回词语分别对应的所述乘积进行第一排序,以将第一排序结果中排名位于前K个的所述乘积对应的所述待召回词语作为所述召回结果;
其中,K为正整数。


6.如权利要求1所述的确定方法,其特征在于,根据所述相似度,确定所述目标文本的关键词,包括:
对所述相似度进行第二排序,以将第二排序结果中排名位于前T个的所述相似度对应的所述召回结果确定为所述关键词;
其中,T为正...

【专利技术属性】
技术研发人员:邓江东黄亚建
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1