【技术实现步骤摘要】
关键词确定方法、装置、设备及计算机可读存储介质
本公开实施例涉及计算机
,尤其涉及关键词确定方法、装置、设备及计算机可读存储介质。
技术介绍
在进行网络检索或文本内容检索和分析以寻找目标信息(或目标关键词)时,使用关键词进行检索常常难以找到或筛选与关键词内在相关但是外在关联度较低的目标信息。例如,在进行诸如公司之类的机构的风险评估时,往往需要通过新闻舆情对公司机构进行风险分类评估。在很多情况下,使用工商执照上的公司全名,难以获得相应的新闻舆情,这是因为公司的产品或服务的品牌名称往往不同于该公司的注册名称。因此,当需要布控舆情的机构数量很大时,以人工方式进行产品品牌的匹配已经不能满足需求。可以通过人工方式在网络中或文本内容中搜索与关键词内在相关但是外在关联度较低的目标信息,但是其缺点是无法同时处理大量需求,耗时极长,造成资源浪费。另外,虽然可以通过分词后的简单统计频率对网络检索结果或文本内容搜索结果进行排序,但是该方式的缺点是无法有效过滤大量垃圾信息,仍需要人工介入检查。
技术实现思路
有鉴于此,本公开第一方面提供了一种关键词确定方法,包括:对与第一关键词相关的文本执行第一分词处理以将所述文本分割为多个文字部分,并对分割出的多个文字部分中与特定词共同出现的词在所述文本中的权重进行调整;按照预设分词表对所述多个文字部分进行第二分词处理以将所述文本分割为多个短语,并对所述多个短语的关键程度进行打分;对所述多个短语中的各个词的关键程度进行打分;利用所述多个短语的关键程度得分以及所述多个短语中的各个词的关键程度得分确定所述多个短语中的各个词中是否存在目标关键词。本 ...
【技术保护点】
1.一种关键词确定方法,其特征在于,包括:对与第一关键词相关的文本执行第一分词处理以将所述文本分割为多个文字部分,并对分割出的多个文字部分中与特定词共同出现的词在所述文本中的权重进行调整;按照预设分词表对所述多个文字部分进行第二分词处理以将所述文本分割为多个短语,并对所述多个短语的关键程度进行打分;对所述多个短语中的各个词的关键程度进行打分;利用所述多个短语的关键程度得分以及所述多个短语中的各个词的关键程度得分确定所述多个短语中的各个词中是否存在目标关键词。
【技术特征摘要】
1.一种关键词确定方法,其特征在于,包括:对与第一关键词相关的文本执行第一分词处理以将所述文本分割为多个文字部分,并对分割出的多个文字部分中与特定词共同出现的词在所述文本中的权重进行调整;按照预设分词表对所述多个文字部分进行第二分词处理以将所述文本分割为多个短语,并对所述多个短语的关键程度进行打分;对所述多个短语中的各个词的关键程度进行打分;利用所述多个短语的关键程度得分以及所述多个短语中的各个词的关键程度得分确定所述多个短语中的各个词中是否存在目标关键词。2.根据权利要求1所述的方法,其特征在于,与第一关键词相关的文本是使用搜索引擎对所述第一关键词进行搜索的结果。3.根据权利要求2所述的方法,其特征在于,所述对与第一关键词相关的文本执行第一分词处理以将所述文本分割为多个文字部分,并对分割出的多个文字部分中与特定词共同出现的词在所述文本中的权重进行调整,包括:利用搜索引擎分词方法对与第一关键词相关的文本执行第一分词处理以将所述文本分割为多个文字部分,并对分割出的多个文字部分中与特定词共同出现的词在所述文本中的权重进行调整。4.根据权利要求1所述的方法,其特征在于,所述特定词与所述文本中的所述特定词以及所述目标关键词以外的词相比,与所述目标关键词具有更强的关联,其中,通过对标记过的语料进行训练来获得所述特定词。5.根据权利要求1所述的方法,其特征在于,所述按照预设分词表对所述多个文字部分进行第二分词处理以将所述文本分割为多个短语,并对所述多个短语的关键程度进行打分,包括:利用所述预设分词表中的词对所述多个文字部分进行第二分词处理以将所述文本分割为多个短语;利用所述多个短语中各个词在所述文本中的出现频率和共现关系对所述多个短语的关键程度进行打分。6.根据权利要求5所述的方法,其特征在于,所述分词表中的词由机器学习方法训练而得到。7.根据权利要求5所述的方法,其特征在于,所述按照预设分词表对所述多个文字部分进行第二分词处理以将所述文本分割为多个短语,并对所述多个短语的关键程度进行打分,包括:基于预设的停用词表对所述多个短语中的各个词进行过滤以过滤掉所述多个短语中的停用词。8.根据权利要求1所述的方法,其特征在于,所述对所述多个短语中的各个词的关键程度进行打分,包括:通过词频-逆文档频率算法对所述多个短语中的各个词的关键程度进行打分。9.根据权利要求1所述的方法,其特征在于,所述利用所述多个短语的关键程度得分以及所述多个短语中的各个词的关键程度得分确定所述多个短语中的各个词中是否存在目标关键词,包括:利用所述多个短语的关键程度得分以及所述多个短语中的各个词的关键程度得分,通过分类算法确定所述多个短语中的各个词中是否存在目标关键词。10.根据权利要求1所述的方法,其特征在于,所述利用所述多个短语的关键程度得分以及所述多个短语中的各个词的关键程度得分确定所述多个短语中的各个词中是否存在目标关键词,包括:利用所述多个短语的关键程度得分以及所述多个短语中的各个词的关键程度得分计算所述多个短语中的各个词的目标得分;根据预设规则和所述多个短语中的各个词的目标得分从所述多个短语中的各个词中选择出候选目标关键词,并且对作为所述候选目标关键词进行验证以确定所述候选目标关键词是否是所述目标关键词。11.一种关键词确定装置,其特征在于,包括:第一分词模块,被配置为对与第一关键词相关的文本执行第一分词处理以将所述文本分割为多个文字部分,并对分割出的多个文字部分中与特定词共同出现的词在所述文本中的权重进行调整;第二分词模块,被配置为按照预设分词表对所述多个文字部分进行第二分词处理以将所述文本分割为多个短语,并对所述多个短语的关键程度进行打分;词打分模块,被配置为对所述多个短语中的各个词的关键程度进行打分;关键词确定模块,被配置为...
【专利技术属性】
技术研发人员:崔家亮,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。