检测关键词推广程度的方法和装置制造方法及图纸

技术编号:15329569 阅读:45 留言:0更新日期:2017-05-16 13:13
本申请公开了一种检测关键词推广程度的方法和装置。其中,该方法包括:爬取包括待检测关键词的多个网络文本;对爬取到的多个网络文本进行处理,到多个关联词;将每个关联词与预设关键词进行匹配,得到预设关键词的匹配关联词和匹配关联词的数量,其中,匹配关联词为多个关联词中的词,预设关键词为与待检测关键词相关联的关键词;计算匹配关联词的数量和预设关键词数量的目标比值,其中,目标比值用于表征待检测关键词的推广程度。本申请解决了现有技术中无法自动对待检测关键词的推广程度进行评估的技术问题。

Method and device for detecting promotion degree of keyword

The invention discloses a method and a device for detecting the popularization degree of key words. Among them, the method comprises the following steps: crawling comprises a plurality of network text keywords to be detected; a plurality of network text to crawl to the processing, to a number of Related words; each associated words and predetermined keyword matching, get default keyword matching and matching relation Related words, the number of words, the matching correlation the word for a number of Related words in the word, is associated with the detected predetermined keyword keywords associated keywords; calculation of matching target ratio, the number of associated words and keywords presupposition which target ratio for the promotion of characterization of detected keywords degree. The utility model solves the technical problem that the generalization degree of the detected keyword can not be automatically treated in the prior art.

【技术实现步骤摘要】
检测关键词推广程度的方法和装置
本申请涉及计算机领域,具体而言,涉及一种检测关键词推广程度的方法和装置。
技术介绍
现今社会中,品牌主需要关注网络上的舆情是否与品牌主的品牌、产品定位一致,在现有技术中,可以通过在系统中嵌入爬虫的应用程序来爬取舆情内容中的部分内容,但是无法自动衡量爬取到的舆情内容,并与自身产品内容进行匹配分析,导致品牌主无法获知品牌在传播的过程中是否出现了品牌传播途中品牌所实际希望传达的消息和消费者认知的差异性。若出现了品牌所实际希望传达的消息和消费者认知的差异性,则该差异性的出现会导致品牌传播效率和质量的下降,不利于品牌主品牌的推广。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种检测关键词推广程度的方法和装置,以至少解决现有技术中无法自动对待检测关键词的推广程度进行评估的技术问题。根据本申请实施例的一个方面,提供了一种检测关键词推广程度的方法,该方法包括:爬取包括待检测关键词的多个网络文本;对爬取到的所述多个网络文本进行处理,得到多个关联词;将每个所述关联词与预设关键词进行匹配,得到所述预设关键词的匹配关联词和所述匹配关联词的数量,其中,所述匹配关联词为所述多个关联词中的词,所述预设关键词为与所述待检测关键词相关联的关键词;以及计算所述匹配关联词的数量和所述预设关键词数量的目标比值,其中,所述目标比值用于表征所述待检测关键词的推广程度。进一步地,所述预设关键词为多个,将每个所述关联词与预设关键词进行匹配,得到所述预设关键词的匹配关联词和所述匹配关联词的数量包括:计算关联词Ai与预设关键词Cj的相似度Bij,其中,i取1至n,n为所述关联词的数量,j依次取1至m,m为所述预设关键词的数量;获取相似度B11至相似度Bnm中大于预设相似度的数量;以及根据获取到的所述相似度B11至所述相似度Bnm中大于预设相似度数量确定所述匹配关联词的数量。进一步地,根据获取到的所述相似度B11至所述相似度Bnm中大于预设相似度数量确定所述匹配关联词的数量包括:判断获取到的相似度B11至相似度B1m中大于所述预设相似度的数量是否大于或者等于1;在判断出获取到的所述相似度B11至所述相似度B1m中大于所述预设相似度的数量大于或者等于1情况下,预设参数的数量由初始值开始累计增加预设数量,直至判断获取到的相似度Bn1至相似度Bnm中大于所述预设相似度的数量是否大于或者等于1;以及确定在判断出所述相似度Bn1至相似度Bnm中大于所述预设相似度的数量是否大于或者等于1后的所述预设参数的取值作为所述匹配关联词的数量。进一步地,对爬取到的所述多个网络文本进行处理,得到多个关联词包括:基于文本语义对所述多个网络文本进行分词,得到多个分词词组,其中,不同的所述分词词组中所包含的网络文本的文本语义不同;依次判断每个所述分词词组中的网络文本是否包含目标词汇;以及删除目标分词词组中的所述目标词汇,得到所述多个关联词,其中,所述目标分词词组为判断出的网络文本包含所述目标词汇的所述分词词组。进一步地,依次判断每个所述分词词组中的网络文本是否包含目标词汇包括:将每个所述分词词组中的网络文本与目标词库进行对比,其中,所述目标词库为用于存储所述目标词汇的词库;以及当对比出所述分词词组的网络文本中包含与所述目标词汇相同的词汇时,确定在所述分词词组中的网络文本中包含所述目标词汇。根据本申请实施例的另一方面,还提供了一种检测关键词推广程度的装置,该装置包括:爬取单元,用于爬取包括待检测关键词的多个网络文本;处理单元,用于对爬取到的所述多个网络文本进行处理,得到多个关联词;匹配单元,用于将每个所述关联词与预设关键词进行匹配,得到所述预设关键词的匹配关联词和所述匹配关联词的数量,其中,所述匹配关联词为所述多个关联词中的词,所述预设关键词为与所述待检测关键词相关联的关键词;以及计算单元,用于计算所述匹配关联词的数量和所述预设关键词数量的目标比值,其中,所述目标比值用于表征所述待检测关键词的推广程度。进一步地,所述预设关键词为多个,所述匹配单元包括:计算模块,用于计算关联词Ai与预设关键词Cj的相似度Bij,其中,i取1至n,n为所述关联词的数量,j依次取1至m,m为所述预设关键词的数量;获取模块,用于获取相似度B11至相似度Bnm中大于预设相似度的数量;以及确定模块,用于根据获取到的所述相似度B11至所述相似度Bnm中大于预设相似度数量确定所述匹配关联词的数量。进一步地,所述获取模块包括:判断子模块,用于判断获取到的相似度B11至相似度B1m中大于所述预设相似度的数量是否大于或者等于1;增加子模块,用于在判断出获取到的所述相似度B11至所述相似度B1m中大于所述预设相似度的数量大于或者等于1情况下,预设参数的数量由初始值开始累计增加预设数量,直至判断获取到的相似度Bn1至相似度Bnm中大于所述预设相似度的数量是否大于或者等于1;以及第一确定子模块,用于确定在判断出所述相似度Bn1至相似度Bnm中大于所述预设相似度的数量是否大于或者等于1后的所述预设参数的取值作为所述匹配关联词的数量。进一步地,所述处理单元包括:分词模块,用于基于文本语义对所述多个网络文本进行分词,得到多个分词词组,其中,不同的所述分词词组中所包含的网络文本的文本语义不同;判断模块,用于依次判断每个所述分词词组中的网络文本是否包含目标词汇;以及删除模块,用于删除目标分词词组中的所述目标词汇,得到所述多个关联词,其中,所述目标分词词组为判断出的网络文本包含所述目标词汇的所述分词词组。进一步地,所述判断模块包括:对比子模块,用于将每个所述分词词组中的网络文本与目标词库进行对比,其中,所述目标词库为用于存储所述目标词汇的词库;以及第二确定子模块,用于当对比出所述分词词组的网络文本中包含与所述目标词汇相同的词汇时,确定在所述分词词组中的网络文本中包含所述目标词汇。在本申请实施例中,采用爬取包括待检测关键词的多个网络文本;对爬取到的所述多个网络文本进行处理,得到多个关联词;将每个所述关联词与预设关键词进行匹配,得到所述预设关键词的匹配关联词和所述匹配关联词的数量,其中,所述匹配关联词为所述多个关联词中的词,所述预设关键词为与所述待检测关键词相关联的关键词;计算所述匹配关联词的数量和所述预设关键词数量的目标比值,其中,所述目标比值用于表征所述待检测关键词的推广程度的方式。通过爬虫在目标信息库中爬取待检测关键词的多个网络文本,并根据获取到的网络文本进行提炼出多个关联词,并将该关联词与预设关键词进行匹配,得到匹配关联词,以及匹配关联词的数量,进而根据该数量和预设关键词数量计算待检测关键词的推广程度的比值,相对于现有技术中仅爬取网络文本,而无法自动对爬取到的关联词进行匹配分析,达到了自动检测待检测关键词推广程度的目的,从而实现了无需人工分析,通过自动匹配分析即可获取待检测关键词的推广程度的技术效果,进而解决了现有技术中无法自动对待检测关键词的推广程度进行评估的技术问题。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的一种检本文档来自技高网...
检测关键词推广程度的方法和装置

【技术保护点】
一种检测关键词推广程度的方法,其特征在于,包括:爬取包括待检测关键词的多个网络文本;对爬取到的所述多个网络文本进行处理,得到多个关联词;将每个所述关联词与预设关键词进行匹配,得到所述预设关键词的匹配关联词和所述匹配关联词的数量,其中,所述匹配关联词为多个所述关联词中的词,所述预设关键词为与所述待检测关键词相关联的关键词;以及计算所述匹配关联词的数量和所述预设关键词数量的目标比值,其中,所述目标比值用于表征所述待检测关键词的推广程度。

【技术特征摘要】
1.一种检测关键词推广程度的方法,其特征在于,包括:爬取包括待检测关键词的多个网络文本;对爬取到的所述多个网络文本进行处理,得到多个关联词;将每个所述关联词与预设关键词进行匹配,得到所述预设关键词的匹配关联词和所述匹配关联词的数量,其中,所述匹配关联词为多个所述关联词中的词,所述预设关键词为与所述待检测关键词相关联的关键词;以及计算所述匹配关联词的数量和所述预设关键词数量的目标比值,其中,所述目标比值用于表征所述待检测关键词的推广程度。2.根据权利要求1所述的方法,其特征在于,所述预设关键词为多个,将每个所述关联词与预设关键词进行匹配,得到所述预设关键词的匹配关联词和所述匹配关联词的数量包括:计算关联词Ai与预设关键词Cj的相似度Bij,其中,i取1至n,n为所述关联词的数量,j依次取1至m,m为所述预设关键词的数量;获取相似度B11至相似度Bnm中大于预设相似度的数量;以及根据获取到的所述相似度B11至所述相似度Bnm中大于预设相似度数量确定所述匹配关联词的数量。3.根据权利要求2所述的方法,其特征在于,根据获取到的所述相似度B11至所述相似度Bnm中大于预设相似度数量确定所述匹配关联词的数量包括:判断获取到的相似度B11至相似度B1m中大于所述预设相似度的数量是否大于或者等于1;在判断出获取到的所述相似度B11至所述相似度B1m中大于所述预设相似度的数量大于或者等于1情况下,预设参数的数量由初始值开始累计增加预设数量,直至判断获取到的相似度Bn1至相似度Bnm中大于所述预设相似度的数量是否大于或者等于1;以及确定在判断出所述相似度Bn1至相似度Bnm中大于所述预设相似度的数量是否大于或者等于1后的所述预设参数的取值作为所述匹配关联词的数量。4.根据权利要求1所述的方法,其特征在于,对爬取到的所述多个网络文本进行处理,得到多个关联词包括:基于文本语义对所述多个网络文本进行分词,得到多个分词词组,其中,不同的所述分词词组中所包含的网络文本的文本语义不同;依次判断每个所述分词词组中的网络文本是否包含目标词汇;以及删除目标分词词组中的所述目标词汇,得到所述多个关联词,其中,所述目标分词词组为判断出的网络文本包含所述目标词汇的所述分词词组。5.根据权利要求4所述的方法,其特征在于,依次判断每个所述分词词组中的网络文本是否包含目标词汇包括:将每个所述分词词组中的网络文本与目标词库进行对比,其中,所述目标词库为用于存储所述目标词汇的词库;以及当对比出所述分词词组的网络文本中包含与所述目标词汇相同的词汇时,确定在所述分词词组中的网络文本中包含所述目标词汇...

【专利技术属性】
技术研发人员:王名洋祁文吴丹
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1