关键词确定方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:21658666 阅读:16 留言:0更新日期:2019-07-20 05:38
本公开实施例提供关键词确定方法、装置、设备及计算机可读存储介质。关键词确定方法包括:对与第一关键词相关的文本执行第一分词处理以将文本分割为多个文字部分,并对分割出的多个文字部分中与特定词共同出现的词在文本中的权重进行调整;按照预设分词表对多个文字部分进行第二分词处理以将文本分割为多个短语,并对多个短语的关键程度进行打分;对多个短语中的各个词的关键程度进行打分;利用多个短语的关键程度得分以及多个短语中的各个词的关键程度得分确定多个短语中的各个词中是否存在目标关键词,可以同时处理大量网络检索结果或文本内容搜索结果,节省处理时间和资源,还可以有效解决因缺少专家知识而出现的纰漏。

Keyword determination methods, devices, devices and computer readable storage media

【技术实现步骤摘要】
关键词确定方法、装置、设备及计算机可读存储介质
本公开实施例涉及计算机
,尤其涉及关键词确定方法、装置、设备及计算机可读存储介质。
技术介绍
在进行网络检索或文本内容检索和分析以寻找目标信息(或目标关键词)时,使用关键词进行检索常常难以找到或筛选与关键词内在相关但是外在关联度较低的目标信息。例如,在进行诸如公司之类的机构的风险评估时,往往需要通过新闻舆情对公司机构进行风险分类评估。在很多情况下,使用工商执照上的公司全名,难以获得相应的新闻舆情,这是因为公司的产品或服务的品牌名称往往不同于该公司的注册名称。因此,当需要布控舆情的机构数量很大时,以人工方式进行产品品牌的匹配已经不能满足需求。可以通过人工方式在网络中或文本内容中搜索与关键词内在相关但是外在关联度较低的目标信息,但是其缺点是无法同时处理大量需求,耗时极长,造成资源浪费。另外,虽然可以通过分词后的简单统计频率对网络检索结果或文本内容搜索结果进行排序,但是该方式的缺点是无法有效过滤大量垃圾信息,仍需要人工介入检查。
技术实现思路
有鉴于此,本公开第一方面提供了一种关键词确定方法,包括:对与第一关键词相关的文本执行第一分词处理以将所述文本分割为多个文字部分,并对分割出的多个文字部分中与特定词共同出现的词在所述文本中的权重进行调整;按照预设分词表对所述多个文字部分进行第二分词处理以将所述文本分割为多个短语,并对所述多个短语的关键程度进行打分;对所述多个短语中的各个词的关键程度进行打分;利用所述多个短语的关键程度得分以及所述多个短语中的各个词的关键程度得分确定所述多个短语中的各个词中是否存在目标关键词。本公开第二方面提供了一种关键词确定装置,包括:第一分词模块,被配置为对与第一关键词相关的文本执行第一分词处理以将所述文本分割为多个文字部分,并对分割出的多个文字部分中与特定词共同出现的词在所述文本中的权重进行调整;第二分词模块,被配置为按照预设分词表对所述多个文字部分进行第二分词处理以将所述文本分割为多个短语,并对所述多个短语的关键程度进行打分;词打分模块,被配置为对所述多个短语中的各个词的关键程度进行打分;关键词确定模块,被配置为利用所述多个短语的关键程度得分以及所述多个短语中的各个词的关键程度得分确定所述多个短语中的各个词中是否存在目标关键词。本公开第三方面提供了一种电子设备,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现以下步骤:对与第一关键词相关的文本执行第一分词处理以将所述文本分割为多个文字部分,并对分割出的多个文字部分中与特定词共同出现的词在所述文本中的权重进行调整;按照预设分词表对所述多个文字部分进行第二分词处理以将所述文本分割为多个短语,并对所述多个短语的关键程度进行打分;对所述多个短语中的各个词的关键程度进行打分;利用所述多个短语的关键程度得分以及所述多个短语中的各个词的关键程度得分确定所述多个短语中的各个词中是否存在目标关键词。本公开第四方面提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现如第一方面所述的方法。在本公开实施方式中,通过对与第一关键词相关的文本执行第一分词处理以将所述文本分割为多个文字部分,并对分割出的多个文字部分中与特定词共同出现的词在所述文本中的权重进行调整;按照预设分词表对所述多个文字部分进行第二分词处理以将所述文本分割为多个短语,并对所述多个短语的关键程度进行打分;对所述多个短语中的各个词的关键程度进行打分;利用所述多个短语的关键程度得分以及所述多个短语中的各个词的关键程度得分确定所述多个短语中的各个词中是否存在目标关键词,可以同时处理大量网络检索结果或文本内容搜索结果,节省处理时间和资源,还可以有效解决因缺少专家知识而出现的纰漏,并且在确定目标关键词的过程中得到有用的信息,过滤掉垃圾信息。本公开的这些方面或其他方面在以下实施例的描述中会更加简明易懂。附图说明为了更清楚地说明本公开实施例或相关技术中的技术方案,下面将对示例性实施例或相关技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些示例性实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出根据本公开一实施方式的关键词确定方法的流程图;图2示出根据本公开一实施方式的关键词确定方法的步骤S102的示例的流程图;图3示出根据本公开一实施方式的关键词确定方法的步骤S104的示例的流程图;图4示出根据本公开一实施方式的关键词确定方法的应用场景示例的示意图;图5示出根据本公开另一实施方式的关键词确定装置的结构框图;图6示出根据本公开一实施方式的电子设备的结构框图;图7是适于用来实现根据本公开一实施方式的关键词确定方法的计算机系统的结构示意图。具体实施方式为了使本
的人员更好地理解本公开方案,下面将结合本公开示例性实施例中的附图,对本公开示例性实施例中的技术方案进行清楚、完整地描述。在本公开的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。下面将结合本公开示例性实施例中的附图,对本公开示例性实施例中的技术方案进行清楚、完整地描述,显然,所描述的示例性实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。.图1示出根据本公开一实施方式的关键词确定方法的流程图。该方法可以包括步骤S101、S102和S103和S104。在步骤S101中,对与第一关键词相关的文本执行第一分词处理以将文本分割为多个文字部分,并对分割出的多个文字部分中与特定词共同出现的词在文本中的权重进行调整。在步骤S102中,按照预设分词表对多个文字部分进行第二分词处理以将文本分割为多个短语,并对多个短语的关键程度进行打分。在步骤S103中,对多个短语中的各个词的关键程度进行打分。在步骤S104中,利用多个短语的关键程度得分以及多个短语中的各个词的关键程度得分确定多个短语中的各个词中是否存在目标关键词。在本公开实施方式中,通过对与第一关键词相关的文本执行第一分词处理以将文本分割为多个文字部分,并对分割出的多个文字部分中与特定词共同出现的词在文本中的权重进行调整;按照预设分词表对多个文字部分进行第二分词处理以将文本分割为多个短语,并对多个短语的关键程度进行打分;对多个短语中的各个词的关键程度进行打分;利用多个短语的关键程度得分以及多个短语中的各个词的关键程度得分确定多个短语中的各个词中是否存在目标关键词,可以同时处理大量网络检索结果或文本内容搜索结果,节省处理时间和资源,还可以有效解决因本文档来自技高网
...

【技术保护点】
1.一种关键词确定方法,其特征在于,包括:对与第一关键词相关的文本执行第一分词处理以将所述文本分割为多个文字部分,并对分割出的多个文字部分中与特定词共同出现的词在所述文本中的权重进行调整;按照预设分词表对所述多个文字部分进行第二分词处理以将所述文本分割为多个短语,并对所述多个短语的关键程度进行打分;对所述多个短语中的各个词的关键程度进行打分;利用所述多个短语的关键程度得分以及所述多个短语中的各个词的关键程度得分确定所述多个短语中的各个词中是否存在目标关键词。

【技术特征摘要】
1.一种关键词确定方法,其特征在于,包括:对与第一关键词相关的文本执行第一分词处理以将所述文本分割为多个文字部分,并对分割出的多个文字部分中与特定词共同出现的词在所述文本中的权重进行调整;按照预设分词表对所述多个文字部分进行第二分词处理以将所述文本分割为多个短语,并对所述多个短语的关键程度进行打分;对所述多个短语中的各个词的关键程度进行打分;利用所述多个短语的关键程度得分以及所述多个短语中的各个词的关键程度得分确定所述多个短语中的各个词中是否存在目标关键词。2.根据权利要求1所述的方法,其特征在于,与第一关键词相关的文本是使用搜索引擎对所述第一关键词进行搜索的结果。3.根据权利要求2所述的方法,其特征在于,所述对与第一关键词相关的文本执行第一分词处理以将所述文本分割为多个文字部分,并对分割出的多个文字部分中与特定词共同出现的词在所述文本中的权重进行调整,包括:利用搜索引擎分词方法对与第一关键词相关的文本执行第一分词处理以将所述文本分割为多个文字部分,并对分割出的多个文字部分中与特定词共同出现的词在所述文本中的权重进行调整。4.根据权利要求1所述的方法,其特征在于,所述特定词与所述文本中的所述特定词以及所述目标关键词以外的词相比,与所述目标关键词具有更强的关联,其中,通过对标记过的语料进行训练来获得所述特定词。5.根据权利要求1所述的方法,其特征在于,所述按照预设分词表对所述多个文字部分进行第二分词处理以将所述文本分割为多个短语,并对所述多个短语的关键程度进行打分,包括:利用所述预设分词表中的词对所述多个文字部分进行第二分词处理以将所述文本分割为多个短语;利用所述多个短语中各个词在所述文本中的出现频率和共现关系对所述多个短语的关键程度进行打分。6.根据权利要求5所述的方法,其特征在于,所述分词表中的词由机器学习方法训练而得到。7.根据权利要求5所述的方法,其特征在于,所述按照预设分词表对所述多个文字部分进行第二分词处理以将所述文本分割为多个短语,并对所述多个短语的关键程度进行打分,包括:基于预设的停用词表对所述多个短语中的各个词进行过滤以过滤掉所述多个短语中的停用词。8.根据权利要求1所述的方法,其特征在于,所述对所述多个短语中的各个词的关键程度进行打分,包括:通过词频-逆文档频率算法对所述多个短语中的各个词的关键程度进行打分。9.根据权利要求1所述的方法,其特征在于,所述利用所述多个短语的关键程度得分以及所述多个短语中的各个词的关键程度得分确定所述多个短语中的各个词中是否存在目标关键词,包括:利用所述多个短语的关键程度得分以及所述多个短语中的各个词的关键程度得分,通过分类算法确定所述多个短语中的各个词中是否存在目标关键词。10.根据权利要求1所述的方法,其特征在于,所述利用所述多个短语的关键程度得分以及所述多个短语中的各个词的关键程度得分确定所述多个短语中的各个词中是否存在目标关键词,包括:利用所述多个短语的关键程度得分以及所述多个短语中的各个词的关键程度得分计算所述多个短语中的各个词的目标得分;根据预设规则和所述多个短语中的各个词的目标得分从所述多个短语中的各个词中选择出候选目标关键词,并且对作为所述候选目标关键词进行验证以确定所述候选目标关键词是否是所述目标关键词。11.一种关键词确定装置,其特征在于,包括:第一分词模块,被配置为对与第一关键词相关的文本执行第一分词处理以将所述文本分割为多个文字部分,并对分割出的多个文字部分中与特定词共同出现的词在所述文本中的权重进行调整;第二分词模块,被配置为按照预设分词表对所述多个文字部分进行第二分词处理以将所述文本分割为多个短语,并对所述多个短语的关键程度进行打分;词打分模块,被配置为对所述多个短语中的各个词的关键程度进行打分;关键词确定模块,被配置为...

【专利技术属性】
技术研发人员:崔家亮
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1