用于网络热词与对象的关联度的数据处理方法和装置制造方法及图纸

技术编号:11122950 阅读:125 留言:0更新日期:2015-03-11 12:04
本发明专利技术公开了一种用于网络热词与对象的关联度的数据处理方法和装置。其中,该用于网络热词与对象的关联度的数据处理方法包括:获取目标对象的对象信息;根据对象信息获取目标热词,目标热词为与对象信息的共现频率大于第一预设频率的词语,共现频率为目标热词与对象信息同时出现的频率;从目标热词中滤除常规热词,得到过滤后的目标热词,常规热词为预先设定的词语;以及确定目标对象与过滤后的目标热词的关联度。通过本发明专利技术,解决了相关技术中难以判断出高频词语与对象之间的真实关联度的问题。

【技术实现步骤摘要】
用于网络热词与对象的关联度的数据处理方法和装置
本专利技术涉及数据处理领域,具体而言,涉及一种用于网络热词与对象的关联度的数据处理方法和装置。
技术介绍
目前,随着媒体营销渠道的社会化发展,各商家开始重视并分析网民在网络渠道上发出的声音,希望将其转化为自身的商业效益。 在相关技术中,为了分析网民在网络渠道上发出的声音:首先采用机器爬虫的方式来爬取互联网网页上的文本信息,对机器而言,这些文本信息是由大量的词语构成的;然后,当确定一个对象时,根据所爬取的文本信息可以统计出与该对象同时出现的高频词语,进而可以判断出这些高频词语与该对象之间的关联度。 然而,由于受“我” “的” “这”等常规高频词的影响,根据上述技术方案,难以判断出这些热词与该对象之间的真实关联度。 针对相关技术中难以判断出热词与对象之间的真实关联度的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种用于网络热词与对象的关联度的数据处理方法和装置,以解决相关技术中难以判断出高频词语与对象之间的真实关联度问题。 为了实现上述目的,根据本专利技术的一个方面,提供了一种用于网络热词与对象的关联度的数据处理方法。该方法可以包括:获取目标对象的对象信息;根据上述对象信息获取目标热词,上述目标热词为与上述对象信息的共现频率大于第一预设频率的词语,上述共现频率为上述目标热词为与上述对象信息同时出现的频率;从上述目标热词中滤除常规热词,得到过滤后的目标热词,上述常规热词为预先设定的词语;以及确定上述目标对象与上述过滤后的目标热词的关联度。 进一步地,从上述目标热词中滤除上述常规热词,得到过滤后的目标热词可以包括:获取上述常规热词;以及判断上述目标对象热词中是否存在上述常规热词,其中,如果判断出上述目标对象热词中存在上述常规热词,则从上述目标热词中滤除上述常规热词,得到上述过滤后的目标热词。 进一步地,可以通过以下方式确定上述常规热词:获取上述目标热词的独现频率,上述独现频率为上述目标热词独立出现的频率;判断上述目标热词的上述独现频率是否大于第二预设频率;以及如果判断出上述目标热词的上述独现频率大于上述第二预设频率,则将上述目标热词作为上述常规热词。 进一步地,上述对象信息可以包括上述目标对象的关键词,根据上述对象信息获取目标热词可以包括:获取预先设置的网络爬虫;利用上述预先设置的网络爬虫爬取目标网站上的文本信息;以及根据上述关键词从上述文本信息中获取上述目标热词。 进一步地,在从上述目标热词中滤除常规热词,得到过滤后的目标热词之后,上述数据处理方法还可以包括:确定上述过滤后的目标热词的情绪属性;以及根据上述共现频率显示上述过滤后的目标热词和上述对象信息,和/或根据上述关联度显示上述过滤后的目标热词和上述对象信息,和/或根据上述情绪属性显示上述过滤后的目标热词和上述对象息。 为了实现上述目的,根据本专利技术的另一方面,提供了一种用于网络热词与对象的关联度的数据处理装置。该装置包括:第一获取单元,用于获取目标对象的对象信息;第二获取单元,用于根据上述对象信息获取目标热词,上述目标热词为与上述对象信息的共现频率大于第一预设频率的词语,上述共现频率为上述目标热词与上述对象信息同时出现的频率;过滤单元,用于从上述目标热词中滤除常规热词,得到过滤后的目标热词,上述常规热词为预先设定的词语;以及第一确定单元,用于确定上述目标对象与上述过滤后的目标热词的关联度。 进一步地,上述过滤单元包括:第一获取模块,用于获取上述常规热词;第一判断模块,用于判断上述目标热词中是否存在上述常规热词;以及过滤模块,用于在判断出上述目标热词中存在上述常规热词时,从上述目标热词中滤除上述常规热词,得到上述过滤后的目标热词。 进一步地,上述数据处理装置还包括第二确定单元,上述第二确定单元用于确定上述常规热词,其中,上述第二确定单元包括:第二获取模块,用于获取上述目标热词的独现频率,上述独现频率为上述目标热词独立出现的频率;第二判断模块,用于判断上述目标热词的上述独现频率是否大于第二预设频率;确定模块,用于在判断出上述目标热词的上述独现频率大于上述第二预设频率时,将上述目标热词作为上述常规热词。 进一步地,上述对象信息包括上述目标对象的关键词,上述第二获取单元包括:第三获取模块,用于获取预先设置的网络爬虫;爬取模块,用于利用上述预先设置的网络爬虫爬取目标网站上的文本信息;以及第四获取模块,用于根据上述关键词从上述文本信息中获取上述目标热词。 进一步地,上述数据处理还包括:第三获取单元,用于在从上述目标热词中滤除常规热词,得到过滤后的目标热词之后,确定上述过滤后的目标热词的情绪属性;以及显示单元,用于根据上述共现频率显示上述过滤后的目标热词和上述对象信息,和/或根据上述关联度显示上述过滤后的目标热词和上述对象信息,和/或根据上述情绪属性显示上述过滤后的目标热词和上述对象信息。 通过本专利技术,采用获取目标对象的对象信息;根据对象信息获取目标热词,目标热词为与对象信息的共现频率大于第一预设频率的词语,共现频率为目标热词为与对象信息同时出现的频率;从目标热词中滤除常规热词,得到过滤后的目标热词,常规热词为预先设定的词语;以及确定目标对象与过滤后的目标热词的关联度,解决了相关技术中难以判断出高频词语与对象之间的真实关联度的问题,进而达到了提高高频词语与对象之间的关联度的准确性效果。 【附图说明】 构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中: 图1是根据本专利技术第一实施例的用于网络热词与对象的关联度的数据处理方法的流程图; 图2是根据本专利技术第二实施例的用于网络热词与对象的关联度的数据处理方法的流程图; 图3是根据本专利技术第一实施例的用于网络热词与对象的关联度的数据处理装置的不意图;以及 图4是根据本专利技术第二实施例的用于网络热词与对象的关联度的数据处理装置的示意图。 【具体实施方式】 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。 为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。 需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。 根据本专利技术的实施例,提供了一种用于热词与对象的关联度本文档来自技高网
...
用于网络热词与对象的关联度的数据处理方法和装置

【技术保护点】
一种用于网络热词与对象的关联度的数据处理方法,其特征在于,包括:获取目标对象的对象信息;根据所述对象信息获取目标热词,所述目标热词为与所述对象信息的共现频率大于第一预设频率的词语,所述共现频率为所述目标热词与所述对象信息同时出现的频率;从所述目标热词中滤除常规热词,得到过滤后的目标热词,所述常规热词为预先设定的词语;以及确定所述目标对象与所述过滤后的目标热词的关联度。

【技术特征摘要】
1.一种用于网络热词与对象的关联度的数据处理方法,其特征在于,包括: 获取目标对象的对象信息; 根据所述对象信息获取目标热词,所述目标热词为与所述对象信息的共现频率大于第一预设频率的词语,所述共现频率为所述目标热词与所述对象信息同时出现的频率; 从所述目标热词中滤除常规热词,得到过滤后的目标热词,所述常规热词为预先设定的词语;以及 确定所述目标对象与所述过滤后的目标热词的关联度。2.根据权利要求1所述的用于网络热词与对象的关联度的数据处理方法,其特征在于,从所述目标热词中滤除所述常规热词,得到过滤后的目标热词包括: 获取所述常规热词;以及 判断所述目标热词中是否存在所述常规热词;以及 如果判断出所述目标热词中存在所述常规热词,则从所述目标热词中滤除所述常规热词,得到所述过滤后的目标热词。3.根据权利要求2所述的用于网络热词与对象的关联度的数据处理方法,其特征在于,通过以下方式确定所述常规热词: 获取所述目标热词的独现频率,所述独现频率为所述目标热词独立出现的频率; 判断所述目标热词的所述独现频率是否大于第二预设频率;以及如果判断出所述目标热词的所述独现频率大于所述第二预设频率,则将所述目标热词作为所述常规热词。4.根据权利要求1所述的用于网络热词与对象的关联度的数据处理方法,其特征在于,所述对象信息包括所述目标对象的关键词,根据所述对象信息获取目标热词包括: 获取预先设置的网络爬虫; 利用所述预先设置的网络爬虫爬取目标网站上的文本信息;以及 根据所述关键词从所述文本信息中获取所述目标热词。5.根据权利要求1所述的用于网络热词与对象的关联度的数据处理方法,其特征在于,在从所述目标热词中滤除常规热词,得到过滤后的目标热词之后,所述数据处理方法还包括: 确定所述过滤后的目标热词的情绪属性;以及 根据所述共现频率显示所述过滤后的目标热词和所述对象信息,和/或根据所述关联度显示所述过滤后的目标热词和所述对象信息,和/或根据所述情绪属性显示所述过滤后的目标热词和所述对象信息。6.一种用于网络热词与对象的关联度的数据处理装置,其特征在于,包括: 第一获取单元,用于获取目标对象的对象信息; 第二获...

【专利技术属性】
技术研发人员:陈俊宏余德乐杨韬
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1