【技术实现步骤摘要】
一种数据挖掘方法、装置、电子设备以及存储介质
[0001]本公开涉及互联网
,尤其涉及互联网大数据处理技术中的一种数据挖掘方法、装置、电子设备以及存储介质。
技术介绍
[0002]目前,很多企业需要对其生成的互联网数据进行分析,挖掘出需要的数据,基于挖掘出的数据进行进一步地处理。例如:为了帮助企业对互联网数据进行舆情分析,出现了舆情分析系统,舆情分析系统主要用于实时监测舆情并及时预警突发舆情。
[0003]可见,如何从海量的互联网数据中有效地挖掘出需要的数据是进行网络数据处理的一个重要的步骤。具体的,对于舆情分析来讲,如何从海量的互联网数据中有效地挖掘出舆情数据,是进行舆情分析的一个最重要的环节。
技术实现思路
[0004]本公开提供了一种能够有效地挖掘出需要的数据的数据挖掘方法、装置、电子设备以及存储介质。
[0005]根据本公开的一方面,提供了一种数据挖掘方法,包括:
[0006]获取待挖掘的当前文章;
[0007]基于预设的多种数据识别策略,从当前文章中获得每种数据 ...
【技术保护点】
【技术特征摘要】
1.一种数据挖掘方法,包括:获取待挖掘的当前文章;基于预设的多种数据识别策略,从当前文章中获得每种数据识别策略所需要的信息值;其中,每种数据识别策略用于识别一种预设类型的数据;分别利用所述每种数据识别策略,基于该识别策略所需要的信息值,对当前文章进行数据类型识别,得到数据类型识别结果;根据所述数据类型识别结果,确定当前文章是否属于任一预设类型的数据。2.根据权利要求1所述的方法,其中,所述数据的预设类型,包括:数据低质量、内容低质量和情感分析不准确;所述基于预设的多种数据识别策略,从当前文章中获得每种数据识别策略所需要的信息值的步骤,包括:基于数据低质量类型的数据识别策略,从当前文章中获得文章标题、文章摘要和文章内容;基于内容低质量类型的数据识别策略,从当前文章中提取关键词;基于情感分析不准确数据识别策略,从当前文章中获得的已发布的情感极性标签。3.根据权利要求2所述的方法,其中,所述分别利用所述每种数据识别策略,基于该识别策略所需的信息值,对当前文章进行数据类型识别,得到数据类型识别结果的步骤,包括:利用数据低质量类型的数据识别策略及所述文章标题、文章摘要和文章内容,对当前文章进行识别,得到当前文章是否为数据低质量类型的数据的第一识别结果;利用内容低质量类型的数据识别策略及从当前文章中提取关键词,对当前文章进行识别,得到当前文章是否为内容低质量类型的数据的第二识别结果;利用情感分析不准确数据识别策略及所述当前文章的情感极性标签,对当前文章进行识别,得到当前文章是否为情感分析不准确类型的数据的第三识别结果。4.根据权利要求3所述的方法,其中,所述利用数据低质量类型的数据识别策略及所述文章标题、文章摘要和文章内容,对当前文章进行识别,得到当前文章是否为数据低质量类型的数据的第一识别结果的步骤,包括:判断所述当前文章的文章标题、文章摘要和文章内容,是否满足预设的数据低质量类型的数据规则,如果是则确定所述当前文章是数据低质量类型的数据。5.根据权利要求4所述的方法,其中,所述判断所述当前文章的文章标题、文章摘要和文章内容,是否满足预设的数据低质量类型的数据规则,如果是则确定所述当前文章是数据低质量类型的数据的步骤,包括:判断所述当前文章的文章标题、文章摘要和文章内容,是否满足预设的文字长度规则或乱码规则和文章标题与文章摘要是否匹配规则中的一种或多种规则,如果是则确定所述当前文章是数据低质量类型的数据。6.根据权利要求5所述的方法,其中,所述文章标题与文章摘要是否匹配规则,包括:若当前文章符合文章标题与文章摘要的文字不匹配,和文章标题与文章摘要的语义不匹配中的至少一项,则确定所述当前文章
为数据低质量类型的数据。7.根据权利要求4所述的方法,其中,所述基于预设的多种数据识别策略,从当前文章中获得每种数据识别策略所需要信息值的步骤,还包括:获得所述当前文章的URL信息;所述利用数据低质量类型的数据识别策略及所述文章标题、文章摘要和文章内容,对当前文章进行识别,得到当前文章是否为数据低质量类型的数据的第一识别结果的步骤,还包括:基于预设的死链定期检测规则,定期检测当前文章的URL是否出现无法访问的死链现象;若当前文章的URL出现无法访问的死链现象,则确定所述当前文章为数据低质量类型的数据。8.根据权利要求3所述的方法,其中,所述利用内容低质量类型的数据识别策略及从当前文章中提取关键词,对当前文章进行识别,得到当前文章是否为内容低质量类型的数据的第二识别结果的步骤,包括:将从当前文章中提取的关键词与预设的内容低质量类型的数据对应的关键词进行第一次匹配,得到第一关键词匹配结果;基于第一关键词匹配结果,确定所述当前文章是否为内容低质量类型的数据。9.根据权利要求8所述的方法,其中,所述基于第一关键词匹配结果,确定所述当前文章是否为内容低质量类型的数据的步骤,包括:若所述第一匹配结果表示第一次匹配成功,则确定所述当前文章为内容低质量类型的数据;或,所述基于第一关键词匹配结果,确定所述当前文章是否为内容低质量类型的数据的步骤,包括:若所述第一匹配结果表示第一次匹配成功,则将从当前文章中提取的关键词与预设的可信关键词进行第二次匹配,得到第二关键词匹配结果;若第二关键词匹配结果表示第二次匹配成功,则所述当前文章不为内容低质量类型的数据;若第二关键词匹配结果表示第二次匹配不成功,则所述当前文章为内容低质量类型的数据;或,所述基于第一关键词匹配结果,确定所述当前文章是否为内容低质量类型的数据的步骤,包括:若所述第一匹配结果表示第一次匹配成功,则确定所述当前文章所属的当前网站;判断所述当前网站是否为预设的内容低质量类型的数据所属的网站;如果是,则确定所述当前文章为内容低质量类型的数据。10.根据权利要求3所述的方法,其中,所述当前文章的情感极性标签是:在所述当前文章发布过程中,采用第一情感极性分析算法进行分析获得的;所述利用情感分析不准确数据识别策略及所述当前文章的情感极性标签,对当前文章进行识别,得到当前文章是否为情感分析不准确类型的数据的第三识别结果的步骤,包括:采用第二情感极性分析算法,对待分析的文章进行情感分析,得到待分析的文章的当
前情感极性;所述第二情感极性分析算法与所述第一情感极性分析算法为不同的算法;基于当前情感极性与所述已发布的情感极性标签是否一致,确定所述当前文章是否为情感分析不准确类型的数据。11.根据权利要求10所述的方法,其中,所述基于当前情感极性与所述已发布的情感极性标签...
【专利技术属性】
技术研发人员:毛勤,邹佩,张月,刘妍,邓海超,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。