关键词生成方法、装置、计算机设备、存储介质和产品制造方法及图纸

技术编号:33385350 阅读:11 留言:0更新日期:2022-05-11 23:00
本申请实施例公开了一种关键词生成方法、装置、计算机设备、存储介质和产品,通过获取文本集合对应的第一候选关键词,以及获取第一候选关键词针对于文本集合的相关度和逆类频率;根据逆类频率和相关度,计算第一候选关键词的区分度;根据区分度从第一候选关键词中筛选满足预设条件的第二候选关键词;对第二候选关键词进行聚类,得到用于文本筛选的目标关键词。本方案根据相关度和逆类频率从第一候选关键词中筛选排他性较强的第二候选关键词,再通过对第二候选关键词进行聚类,可以从第二候选关键词中确定排他性更强的目标关键词,使得基于目标关键词进行文本筛选时可以准确地筛选到目标文本,提高生成的目标关键词的排他性且降低人工成本。低人工成本。低人工成本。

【技术实现步骤摘要】
关键词生成方法、装置、计算机设备、存储介质和产品


[0001]本申请涉及通信
,具体涉及一种关键词生成方法、装置、计算机设备、存储介质和产品,其中,存储介质为计算机可读存储介质,产品为计算机程序产品。

技术介绍

[0002]利用关键词筛选文本一种常用的文本处理方式。比如,我们需要识别某一类商户,可以通过商户名称关键词进行匹配的方式实现筛选。但是直接从文本提取出所需的关键词颇为耗时,也很难穷尽所有关键词,而且当新文本出现时,利用旧关键词筛选文本的覆盖率又会受到挑战。
[0003]从文本中提出关键词可以通过词频

逆文本频率(term frequency

inverse document frequency,TF

IDF)方式,但通过该方法生成的关键词排他性差,排他性可以表征筛选到目标文本的准确性,所以在做关键词生成时往往需要人工参与,即先通过TF

IDF方式等筛选关键词,再通过人工筛选出所需的关键词。当出现新文本时,也需要通过类似的方式,先通过TF

IDF方式等筛选关键词,再由人工从中筛选目标关键词,上述方法生成的目标关键词的排他性差,且需要大量人工参与,人工成本高。

技术实现思路

[0004]本申请实施例提供一种关键词生成方法、装置、计算机设备、存储介质和产品,本方案根据相关度和逆类频率从第一候选关键词中筛选排他性较强的第二候选关键词,再通过对第二候选关键词进行聚类,可以从第二候选关键词中确定排他性更强的目标关键词,使得基于目标关键词进行文本筛选时可以准确地筛选到目标文本,提高生成的目标关键词的排他性且降低人工成本。
[0005]本申请实施例提供的一种关键词生成方法,包括:
[0006]获取文本集合对应的第一候选关键词,以及获取所述第一候选关键词针对于所述文本集合的相关度和逆类频率;
[0007]根据所述逆类频率和所述相关度,计算所述第一候选关键词的区分度;
[0008]根据所述区分度从所述第一候选关键词中筛选满足预设条件的第二候选关键词;
[0009]对所述第二候选关键词进行聚类,得到用于文本筛选的目标关键词。
[0010]相应的,本申请实施例还提供的一种关键词生成装置,包括:
[0011]获取单元,用于获取文本集合对应的第一候选关键词,以及获取所述第一候选关键词针对于所述文本集合的相关度和逆类频率;
[0012]计算单元,用于根据所述逆类频率和所述相关度,计算所述第一候选关键词的区分度;
[0013]筛选单元,用于根据所述区分度从所述第一候选关键词中筛选满足预设条件的第二候选关键词;
[0014]聚类单元,用于对所述第二候选关键词进行聚类,得到用于文本筛选的目标关键
词。
[0015]在一实施例中,所述获取单元,包括:
[0016]统计子单元,用于对所述文本集合中包含所述第一候选关键词的文本所属的文本类别进行统计,得到文本类别统计数;
[0017]类别获取子单元,用于获取所述文本集合中包含的文本类别总数;
[0018]频率计算子单元,用于根据所述文本类别统计数以及所述文本类别总数,计算所述第一候选关键词针对于所述文本集合的逆类频率。
[0019]在一实施例中,所述关键词生成装置,还包括:
[0020]数据获取单元,用于获取初始文本集合,以及获取初始关键词;
[0021]文本筛选单元,用于通过所述初始关键词对所述初始文本集合进行文本筛选,得到包含所述初始关键词的目标文本;
[0022]标注单元,用于对所述初始文本样本集合中的目标文本进行文本类别标注,得到文本集合。
[0023]在一实施例中,所述数据获取单元,包括:
[0024]关键词获取子单元,用于获取文本样本对应的第一备选关键词;
[0025]关键词筛选子单元,用于根据所述第一备选关键词的相关度以及逆类频率,从所述第一备选关键词中筛选第二备选关键词;
[0026]样本筛选子单元,用于基于所述第二备选关键词对所述文本样本进行文本筛选,得到筛选结果;
[0027]指标计算子单元,用于根据筛选结果计算所述第二备选关键词的评估指标,并通过所述评估指标从所述第二备选关键词中选取所述初始关键词。
[0028]在一实施例中,所述指标计算子单元,包括:
[0029]选取模块,用于根据所述评估指标从所述第二备选关键词中选取种子关键词;
[0030]信息获取模块,用于获取所述第一备选关键词的第一特征信息,以及所述种子关键词的第二特征信息;
[0031]相似度计算模块,用于基于所述第一特征信息以及所述第二特征信息,计算所述第一备选关键词与所述种子关键词的相似度;
[0032]确定模块,用于根据所述种子关键词以及所述相似度从所述第一备选关键词中确定所述初始关键词。
[0033]在一实施例中,所述获取单元,包括:
[0034]频率信息获取子单元,用于获取所述第一候选关键词的词频和逆文本频率;
[0035]相关度计算子单元,用于根据所述词频和所述逆文本频率,计算所述第一候选关键词的相关度。
[0036]在一实施例中,所述第二候选关键词包括多个,所述聚类单元,包括:
[0037]关键词聚类子单元,用于根据多个第二候选关键词之间的密度可达关系对所述第二候选关键词进行聚类,得到目标关键词簇;
[0038]目标关键词确定子单元,用于从所述目标关键词簇中确定所述目标关键词。
[0039]相应的,本申请实施例还提供的一种计算机设备,包括存储器和处理器;所述存储器存储有计算机程序,所述处理器用于运行所述存储器内的计算机程序,以执行本申请实
施例提供的任一种关键词生成方法。
[0040]相应的,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被处理器加载以执行本申请实施例提供的任一种关键词生成方法。
[0041]相应的,本申请实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本申请实施例提供的任一种关键词生成方法。
[0042]本申请实施例通过获取文本集合对应的第一候选关键词,以及获取第一候选关键词针对于文本集合的相关度和逆类频率;根据逆类频率和相关度,计算第一候选关键词的区分度;根据区分度从第一候选关键词中筛选满足预设条件的第二候选关键词;对第二候选关键词进行聚类,得到用于文本筛选的目标关键词。
[0043]本方案根据相关度和逆类频率从第一候选关键词中筛选排他性较强的第二候选关键词,再通过对第二候选关键词进行聚类,可以从第二候选关键词中确定排他性更强的目标关键词,使得基于目标关键词进行文本筛选时可以准确地筛选到目标文本,提高生成的目标关键词的排他性且降低人工成本。
附图说明
[0044]为了更本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词生成方法,其特征在于,包括:获取文本集合对应的第一候选关键词,以及获取所述第一候选关键词针对于所述文本集合的相关度和逆类频率;根据所述逆类频率和所述相关度,计算所述第一候选关键词的区分度;根据所述区分度从所述第一候选关键词中筛选满足预设条件的第二候选关键词;对所述第二候选关键词进行聚类,得到用于文本筛选的目标关键词。2.根据权利要求1所述的方法,其特征在于,所述获取文本集合对应的第一候选关键词之前,所述方法还包括:获取初始文本集合,以及获取初始关键词;通过所述初始关键词对所述初始文本集合进行文本筛选,得到包含所述初始关键词的目标文本;对所述初始文本样本集合中的目标文本进行文本类别标注,得到文本集合。3.根据权利要求2所述的方法,其特征在于,所述获取初始关键词,包括:获取文本样本对应的第一备选关键词;根据所述第一备选关键词的相关度以及逆类频率,从所述第一备选关键词中筛选第二备选关键词;基于所述第二备选关键词对所述文本样本进行文本筛选,得到筛选结果;根据筛选结果计算所述第二备选关键词的评估指标,并通过所述评估指标从所述第二备选关键词中选取所述初始关键词。4.根据权利要求3所述的方法,其特征在于,所述通过所述评估指标从所述第二备选关键词中选取所述初始关键词,包括:根据所述评估指标从所述第二备选关键词中选取种子关键词;获取所述第一备选关键词的第一特征信息,以及所述种子关键词的第二特征信息;基于所述第一特征信息以及所述第二特征信息,计算所述第一备选关键词与所述种子关键词的相似度;根据所述种子关键词以及所述相似度从所述第一备选关键词中确定所述初始关键词。5.根据权利要求1...

【专利技术属性】
技术研发人员:蒋乐怡
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1