当前位置: 首页 > 专利查询>杜泽壮专利>正文

一种媒体数据处理方法、装置、介质和设备制造方法及图纸

技术编号:19745150 阅读:22 留言:0更新日期:2018-12-12 04:43
本发明专利技术涉及数据业务技术领域,特别涉及一种媒体数据处理方法、装置、介质和设备。根据本发明专利技术实施例提供的方案,可以针对一个指定的关键词,确定该关键词对应的预设的数据平台列表,该数据平台列表中包括针对该关键词,确定出的至少一个国家和/或组织所对应的至少一个数据平台。进而按照设定周期,利用网络爬虫技术从所述数据平台列表中的每个数据平台上自动爬取媒体数据,从而可以获得一个关键词对应的世界范围内的媒体数据,使得获得的媒体数据具有全面性。

【技术实现步骤摘要】
一种媒体数据处理方法、装置、介质和设备
本专利技术涉及数据业务
,特别涉及一种媒体数据处理方法、装置、介质和设备。
技术介绍
目前,很多话题具有国际意义,因此会在国际媒体中得到广泛传播。针对一个具有国际意义的话题,单纯从我国各数据平台获取的媒体数据会存在不够全面的问题。无法获取全面的媒体数据,也就无法对媒体数据对应的话题进行全面准确的分析,无法体现话题的国际影响力。而目前还没有一种全面地获得媒体数据的方法。
技术实现思路
本专利技术实施例提供一种媒体数据处理方法、装置、介质和设备,用于解决无法获得全面的媒体数据的问题。一种媒体数据处理方法,所述方法包括:针对一个指定的关键词,确定预设的数据平台列表,所述数据平台列表包括针对所述指定的关键词,确定出的至少一个数据平台,所述至少一个数据平台对应至少一个国家和/或组织;按照设定周期,利用网络爬虫技术分别获取所述数据平台列表中每个数据平台上的媒体数据。一种媒体数据处理装置,所述装置包括:确定模块,用于针对一个指定的关键词,确定预设的数据平台列表,所述数据平台列表包括针对所述指定的关键词,确定出的至少一个数据平台,所述至少一个数据平台对应至少一个国家和/或组织;获取模块,用于按照设定周期,利用网络爬虫技术分别获取所述数据平台列表中每个数据平台上的媒体数据。本专利技术还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有可执行程序,该可执行程序被处理器执行实现如上所述方法的步骤。本专利技术还提供了一种媒体数据处理设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述程序时实现如上所述方法的步骤。根据本专利技术实施例提供的方案,可以针对一个指定的关键词,确定该关键词对应的预设的数据平台列表,该数据平台列表中包括针对该关键词,确定出的至少一个国家和/或组织所对应的至少一个数据平台。进而按照设定周期,利用网络爬虫技术从所述数据平台列表中的每个数据平台上自动爬取媒体数据,从而可以获得一个关键词对应的世界范围内的媒体数据,使得获得的媒体数据具有全面性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例一提供的媒体数据处理方法的流程示意图;图2为本专利技术实施例二提供的媒体数据处理装置的结构示意图;图3为本专利技术实施例三提供的媒体数据处理设备的结构示意图。具体实施方式本专利技术实施例通过针对每个关键词(一个关键词可以理解为对应一个话题),预设对应世界范围的数据平台的数据平台列表的方式,使得可以针对每个关键词,根据预设的数据平台列表,获取其中每个数据平台上的媒体数据,使得获得的媒体数据具有全面性。进一步的,在本专利技术实施例提供的方案中,在获得的媒体数据为文章时,还进一步提供了一种文章的情感倾向分析方法。通过准确地分析一篇文章的情感倾向,实现对媒体数据的准确分析。为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。实施例一本专利技术实施例一提供一种媒体数据处理方法,该方法的步骤流程可以如图1所示,包括:步骤101、确定数据平台列表。在本步骤中,针对需要获取媒体数据的关键词,确定该关键词对应的预设的数据平台列表。该数据平台列表中包括的数据平台,是针对该关键词,通过对世界范围内国家和组织的数据平台的统计和研究,预先确定出的该关键词传播的至少一个国家和/或组织,以及针对确定出的每个国家或组织,分别确定出的对应的数据平台。所述数据平台可以包括电视平台、网络平台和专业媒体平台。较优的,在本实施例中,网络平台可以包括视频网站平台、微博平台、百科平台、社交平台、搜索平台和指数平台。当然,网络平台还可以进一步包括其他平台,本实施例不再进一步说明。即在本步骤中,可以针对一个指定的关键词,确定预设的数据平台列表,所述数据平台列表包括针对所述指定的关键词,确定出的至少一个数据平台,所述至少一个数据平台对应至少一个国家和/或组织。步骤102、获取媒体数据。在本步骤中,可以按照设定周期,利用网络爬虫技术分别获取所述数据平台列表中每个数据平台上的媒体数据。进一步的,在针对一个关键词获取世界范围内的媒体数据之后,还可以对获取的媒体数据进行分析处理,以确定该关键词的国际影响力。因此,本实施例还可以包括步骤103:步骤103、对媒体数据进行分析。在本步骤中,可以通过预先确定的数学模型,对获取的媒体数据进行分析。通过对媒体数据的准确分析,准确判断对应关键词的国际影响力。当然,由于步骤102中获取的媒体数据是世界范围内的,在本步骤中对获取的媒体数据进行分析时,可以对获取的媒体数据进行翻译,并对翻译成指定语言,如中文后的媒体数据进行分析。在对媒体数据进行分析时,具体的,以媒体数据为文章为例,可以利用预先设计的情感分析引擎,提取每篇文章中的情感倾向词,所述情感倾向词为用于表示情感倾向的词语;根据提取出的情感倾向词,确定每篇文章的情感值,所述情感值用于确定一篇文章的情感倾向。具体的,所述情感倾向词可以但不限于包括否定词、程度词和情感词,所述否定词为用于表示否定意义的词语,所述程度词为用于表示程度的词语,所述情感词为用于表示情感的词语。较优的,可以通过一篇文章中句子的情感值,确定对应段落的情感值,进而通过每个段落的情感值确定整篇文章的情感值。因此根据提取出的否定词、程度词和情感词,确定每篇文章的情感值,可以包括:根据提取出的否定词、程度词和情感词,确定一篇文章中每个句子的情感值;根据每个句子的情感值,确定每个段落的情感值;根据每个段落的情感值,确定一篇文章的情感值。更优的,本实施例提供了一种数学模型以确定一篇文章的情感值。具体的,可以通过以下公式,确定一个句子的情感值S:S=W1×W2×W3其中,W1表示一个句子中否定词的权重;W2表示一个句子中程度词的权重;W3表示一个句子中情感词的权重;且,W1=(N+2)×(-1)N表示一个句子中否定词的个数;k表示一个句子中程度词的个数,Ki表示一个句子中每个程度词的预设分值;l表示一个句子中情感词的个数,Lj表示一个句子中每个情感词的预设分值;通过以下公式,确定一个段落的情感值D:p表示一个段落中句子的个数,Sm表示一个段落中每个句子的情感值;通过以下公式,确定一篇文章的情感值A:q表示一篇文章中段落的个数,Dn表示一篇文章中每个段落的情感值。通过以上数学模型确定文章的情感倾向值,这样就可以批量地分析抓取的文章,对其进行意见归类,从而提炼出对指定关本文档来自技高网...

【技术保护点】
1.一种媒体数据处理方法,其特征在于,所述方法包括:针对一个指定的关键词,确定预设的数据平台列表,所述数据平台列表包括针对所述指定的关键词,确定出的至少一个数据平台,所述至少一个数据平台对应至少一个国家和/或组织;按照设定周期,利用网络爬虫技术分别获取所述数据平台列表中每个数据平台上的媒体数据。

【技术特征摘要】
1.一种媒体数据处理方法,其特征在于,所述方法包括:针对一个指定的关键词,确定预设的数据平台列表,所述数据平台列表包括针对所述指定的关键词,确定出的至少一个数据平台,所述至少一个数据平台对应至少一个国家和/或组织;按照设定周期,利用网络爬虫技术分别获取所述数据平台列表中每个数据平台上的媒体数据。2.如权利要求1所述的方法,其特征在于,所述数据平台为电视平台、视频网站平台、微博平台、百科平台、社交平台、搜索平台、指数平台或专业媒体平台。3.如权利要求1或2所述的方法,其特征在于,所述媒体数据为文章时,所述方法还包括:利用预先设计的情感分析引擎,提取每篇文章中的情感倾向词,所述情感倾向词为用于表示情感倾向的词语;根据提取出的情感倾向词,确定每篇文章的情感值,所述情感值用于确定一篇文章的情感倾向。4.如权利要求3所述的方法,其特征在于,所述情感倾向词包括否定词、程度词和情感词,所述否定词为用于表示否定意义的词语,所述程度词为用于表示程度的词语,所述情感词为用于表示情感的词语。5.如权利要求4所述的方法,其特征在于,根据提取出的否定词、程度词和情感词,确定每篇文章的情感值,包括:根据提取出的否定词、程度词和情感词,确定一篇文章中每个句子的情感值;根据每个句子的情感值,确定每个段落的情感值;根据每个段落的情感值,确定一篇文章的情感值。6.如权利要求5所述的方法,其特征在于,通过以下公式,确定一个句子的情感值S:S=W1×W2×W3其中,W1表示一个句子中否定词的权重;W2表示一个句子中程度词的权重;W3表示一个句子中情感词的权重;且,W1=(N+2)×(-1)N表示一个句子中否定词的个数;k表示一个句子中程度词的个数,Ki表示一个句子中每个程度词的预设分值;l表示一个句子中情感词的个数,Lj表示一个句子中每个情感词的预设分值;通过以下公式,确定一个段落的情感值D:p表示一个段落中句子的个数,Sm表示一个段落中每个句子的情感值;通过以下公式,确定一篇文章的情感值A:q表示一篇文章中段落的个数,Dn表示一篇文章中每个段落的情感值。7.一种媒体数据处理装置,其特征在于,所述装置包括:确定模块,用于针对一个指定的关键词,确定预设的数据平台列表,所述数据平台列表包括针对所述指定的关键词,确定出的至少一个数据平台,所述至少一个...

【专利技术属性】
技术研发人员:杜泽壮
申请(专利权)人:杜泽壮
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1