System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及搜索引擎,尤其涉及一种基于网络新闻热词的数据挖掘方法、系统、存储介质及计算机设备。
技术介绍
1、现有的搜索引擎提供了网络百科功能,其就像是一个开放性的百科全书,用户可以通过阅读去学习百科里的知识,也可以将自己掌握的知识通过编辑百科分享给其他用户。百科词条也称为百科条目,网络词条则是指网络百科中的词条。用户在使用搜索引擎进行检索时,搜索引擎将会召回相关检索目标的词条。
2、搜索引擎在日常使用中,需要及时收录新词条以丰富网络百科功能;因此,当前正发生的网络新闻则为新词条收录的重要来源;然而,现有技术一般都是通过后台员工主动录入或者由网络用户录入与修改;即现有的百科词条的生成方式效率低,且容易出现人为误差等问题。同时,搜索引擎未能及时收录热点的新词条时,将无法满足用户的百科意图需求,从而严重影响到用户的使用体验。
3、综上可知,现有的方法在实际使用上,存在着较多的问题,所以有必要加以改进。
技术实现思路
1、针对上述的缺陷,本专利技术的目的在于提供一种基于网络新闻热词的数据挖掘方法,系统、存储介质及其计算机设备,能够实现对网络百科新词条的自动挖掘。
2、为了实现上述目的,本专利技术提供一种基于网络新闻热词的数据挖掘方法,包括步骤:
3、获取网络新闻热词;
4、将所述网络新闻热词进行分词处理;
5、对分词处理后的分词信息进行去重,得到处理后的目标数据;
6、获取至少一第三方网站和/或网站版块
7、根据所述搜索结果执行对应的数据挖掘策略,以实现对所述网络新闻热词的数据挖掘。
8、可选的,所述获取网络新闻热词的步骤具体包括:
9、获取指定期限内的网络新闻热词。
10、可选的,所述对分词处理后的分词信息进行去重,得到处理后的目标数据的步骤具体包括:
11、将分词处理后的分词信息与所述网络新闻热词进行混合;
12、将对应的混合数据进行去重,得到处理后的目标数据。
13、可选的,所述获取至少一第三方网站和/或网站版块中关于所述目标数据的搜索结果的步骤具体包括:
14、获取至少一第三方网站和/或网站版块基于以所述目标数据为检索词的词条搜索结果。
15、可选的,所述根据所述搜索结果执行对应的数据挖掘策略,以实现对所述网络新闻热词的数据挖掘的步骤之前,还包括:
16、若检测确定所述词条搜索结果中的目标词条已收录于本地词条,则终止对所述网络新闻热词的数据挖掘。
17、可选的,所述根据所述搜索结果执行对应的数据挖掘策略,以实现对所述网络新闻热词的数据挖掘的步骤具体包括:
18、若检测确定所述词条搜索结果未收录于本地词条中,则提取出所述词条搜索结果中待收录的目标词条。可选的,所述根据所述搜索结果执行对应的数据挖掘策略,以实现对所述网络新闻热词的数据挖掘的步骤之后,还包括:
19、根据所述搜索结果的呈现内容,以补充所述目标词条对应的正文内容。
20、还提供了一种基于网络新闻热词的数据挖掘系统,包括有:
21、获取单元,用于获取网络新闻热词;
22、分词单元,用于将所述网络新闻热词进行分词处理;
23、去重单元,用于对分词处理后的分词信息进行去重,得到处理后的目标数据;
24、抓取单元,用于获取至少一第三方网站和/或网站版块中关于所述目标数据的搜索结果;
25、挖掘单元,用于根据所述搜索结果执行对应的数据挖掘策略,以实现对所述网络新闻热词的数据挖掘。
26、另外,还提供了一种存储介质和计算机设备,所述存储介质用于存储一种用于执行上述基于网络新闻热词的数据挖掘方法的计算机程序。
27、所述计算机设备包括存储介质、处理器以及存储在所述存储介质上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的基于网络新闻热词的数据挖掘方法。
28、本专利技术所述的基于网络新闻热词的数据挖掘方法及其系统,将获取到的网络新闻热词进行分词与去重处理,并依据处理后的网络新闻热词,从至少一第三方网站和/或网站版块中获取关于所述目标数据的搜索结果;再根据所述搜索结果执行对应的数据挖掘策略,以实现对所述网络新闻热词的数据挖掘。据此,本专利技术能够实现对当前网络新闻热词对应词条的自动挖掘。
本文档来自技高网...【技术保护点】
1.一种基于网络新闻热词的数据挖掘方法,其特征在于,包括步骤:
2.根据权利要求1所述的基于网络新闻热词的数据挖掘方法,其特征在于,所述获取网络新闻热词的步骤具体包括:
3.根据权利要求1所述的基于网络新闻热词的数据挖掘方法,其特征在于,所述对分词处理后的分词信息进行去重,得到处理后的目标数据的步骤具体包括:
4.根据权利要求1所述的基于网络新闻热词的数据挖掘方法,其特征在于,所述获取至少一第三方网站和/或网站版块中关于所述目标数据的搜索结果的步骤具体包括:
5.根据权利要求4所述的基于网络新闻热词的数据挖掘方法,其特征在于,所述根据所述搜索结果执行对应的数据挖掘策略,以实现对所述网络新闻热词的数据挖掘的步骤之前,还包括:
6.根据权利要求5所述的基于网络新闻热词的数据挖掘方法,其特征在于,所述根据所述搜索结果执行对应的数据挖掘策略,以实现对所述网络新闻热词的数据挖掘的步骤具体包括:
7.根据权利要求1所述的基于网络新闻热词的数据挖掘方法,其特征在于,所述根据所述搜索结果执行对应的数据挖掘策略,以实现对所述网
8.一种基于网络新闻热词的数据挖掘系统,其特征在于,包括有:
9.一种存储介质,其特征在于,用于存储一种用于执行权利要求1~7中任意一种所述基于网络新闻热词的数据挖掘方法的计算机程序。
10.一种计算机设备,包括存储介质、处理器以及存储在所述存储介质上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~7任一项所述基于网络新闻热词的数据挖掘方法。
...【技术特征摘要】
1.一种基于网络新闻热词的数据挖掘方法,其特征在于,包括步骤:
2.根据权利要求1所述的基于网络新闻热词的数据挖掘方法,其特征在于,所述获取网络新闻热词的步骤具体包括:
3.根据权利要求1所述的基于网络新闻热词的数据挖掘方法,其特征在于,所述对分词处理后的分词信息进行去重,得到处理后的目标数据的步骤具体包括:
4.根据权利要求1所述的基于网络新闻热词的数据挖掘方法,其特征在于,所述获取至少一第三方网站和/或网站版块中关于所述目标数据的搜索结果的步骤具体包括:
5.根据权利要求4所述的基于网络新闻热词的数据挖掘方法,其特征在于,所述根据所述搜索结果执行对应的数据挖掘策略,以实现对所述网络新闻热词的数据挖掘的步骤之前,还包括:
6.根据权利要求5所述的基于网络新闻热词...
【专利技术属性】
技术研发人员:张成,
申请(专利权)人:天津三六零快看科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。