一种针对千万级规模新闻评论的观点挖掘方法技术

技术编号:11729955 阅读:196 留言:0更新日期:2015-07-15 02:34
本发明专利技术公开了一种针对千万级规模新闻评论的观点挖掘方法。具体步骤如下:1)、统计千万级规模新闻评论的数量;2)、判断该数量是否大于或等于阈值K,如果是不予处理,否则进入步骤三;3)、利用中文分词工具,对数量小于阈值K的新闻标题和评论进行分词,进行词性标注;4)、根据分词结果对新闻评论聚类,得到类别标签;5)、对新闻评论进行关键词对提取;6)、统计新闻评论的比例和混杂度;7)、根据关键词对筛选并提取代表性文本。本发明专利技术利用中文分词工具,考虑汉语语言的用法和搭配关系,结合新闻标题的作用,处理千万级规模的新闻评论,具有高效性、鲁棒性和易用性等优点。

【技术实现步骤摘要】

本专利技术属于数据挖掘领域,涉及一种观点挖掘技术,具体的说是一种针对千万级规模新闻评论的观点挖掘方法
技术介绍
随着网民规模的不断增大,社会化媒体也得到迅速地发展,以论坛、微博、微信为代表逐渐渗透到全民生活和工作的每一个层面,对人们的行为模式、心理模式产生了极为深远的影响。同时社会化媒体每天都会产生大量的短文本,含有大量的表达事件方面或用户观点的信息。通过分析该信息,人们一方面可以了解某一事件或话题的信息扩散情况,另一方面通过观察其他人对某一事件或话题的看法,了解到其观点偏好和行为特征,这对社会化媒体舆情监控、社会化媒体营销等方面有着重要的作用。如何从大量的社会化媒体短文本中提取出能表达事件方面或用户观点的关键词成为当前的研究重点。新闻评论是社会各界人士对社会化主流媒体所发布的新闻的看法,这些评论既能反映人们对某一新闻的观点,又能反应人们对某一新闻关注的方面。但是,由于新闻评论具有数量大,长度短,用词口语化,汉语语言的多样性等特点,对新闻评论进行观点挖掘具有一定的难度。
技术实现思路
本专利技术的目的是:在信息爆炸式增长的情况下,针对如何高效地从某一话题的大量新闻评论文本中提取出事件方面或用户观点的问题,提出了一种针对千万级规模新闻评论的观点挖掘方法。该方法具体步骤如下:步骤一:根据新闻标题统计各新闻标题对应的千万级规模新闻评论的数量;初始根据新闻标题为新闻评论进行分类,每个新闻标题下的新闻评论为一类;步骤二:将新闻评论数量大于或等于阈值K的各类新闻评论不予处理,将新闻评论数量小于阈值K的新闻评论进入步骤三处理;阈值K计算如下: K = max _ count × 0.05 ]]>其中,max_count表示所有新闻评论的最大评论数量;步骤三:利用中文分词工具,对数量小于阈值K的每一类新闻标题以及对应的新闻评论进行分词,并进行词性标注;经过分词后,将评论数量小于阈值K的新闻评论以及对应该类的新闻标题分成名词、形容词和动词;步骤四:根据分词结果对评论数量小于阈值K的所有新闻评论聚类,并得到聚类后每类新闻评论的类别标签;步骤五:对评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类新闻评论进行关键词对提取;步骤501、对每一类新闻评论进行词频统计,选取词频排名前M个词语作为候选的高频词;其中每一类新闻评论是指步骤二评论数量大于等于阈值K的每一类新闻评论或步骤四聚类处理后含有类别标签每一类新闻评论;M为整数。步骤502、根据候选高频词在新闻评论中出现的位置,选取与候选高频词紧邻的前后词分别构成前后两个词对;步骤503、统计每一个词对在新闻评论中出现的次数,计算每一个词对的权重W:W=Fg×NcFg为核心词权重;Nc表示词对共现权重。步骤504、根据权重对词对进行降序排序,选取前N个词对作为该类新闻评论中的关键词对;其中,N为整数。步骤六:根据评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类新闻评论,统计每一类新闻评论的比例和混杂度;新闻评论的混杂度,针对聚类后的含有类别标签的各类新闻评论,统计各类新闻评论中包含的新闻标题个数;步骤七:根据关键词对,筛选并提取每一类新闻评论中的代表性文本。本专利技术的优点在于:(1)、一种针对千万级规模新闻评论的观点挖掘方法,适用于千万级规模新闻评论的方面分析。(2)、一种针对千万级规模新闻评论的观点挖掘方法,具有高效性和易用性,在舆情监控、观点分析和信息传播扩散等领域有重要的应用价值。(3)、一种针对千万级规模新闻评论的观点挖掘方法,利用中文分词工具,考虑汉语语言的用法和搭配关系,结合新闻标题的作用,处理千万级规模的新闻评论,具有高效性、鲁棒性和易用性等优点。附图说明图1是为本专利技术一种针对千万级规模新闻评论的观点挖掘方法流程图。图2为本专利技术关键词对提取的具体流程流程图。具体实施方式下面将结合附图和实施例对本专利技术作进一步的详细说明。一种针对千万级规模新闻评论的观点挖掘方法,基于数据挖掘、自然语言处理等技术,利用中文分词、聚类等方法,对千万级规模的新闻评论进行分析,从中获取能表达事件方面或用户观点的重要信息。首先,根据某一事件或话题下新闻标题统计每一个标题下的评论数量,将评论数量超过一定值的新闻评论按标题组成一类;再对剩下的新闻标题和评论内容进行中文分词,根据分词的结果进行聚类;然后对每一类新闻评论提取该类的关键词对,并计算每一类新闻评论的比例和混杂度;最后根据每一类的关键词对,从该类的新闻评论中提取出该类下能代表事件方面或用户观点的文本。具体实施步骤如下:步骤一:根据新闻标题统计各新闻标题对应的千万级规模新闻评论的数量;初始根据新闻标题为新闻评论进行分类,每个新闻标题下的新闻评论为一类;新闻标题能简明扼要地概括新闻的内容,根据新闻标题对新闻评论进行分类,每一个新闻标题是一类,从而进一步根据新闻标题对新闻评论进行数量统计,统计每一类新闻标题下的千万级规模新闻评论的数量。比如,关于“APEC”话题下有41067条新闻评论,含有1056个不同的新闻标题,则分别统计1056类标题下的新闻评论的数量。步骤二:将新闻评论数量大于或等于阈值K的各类新闻评论不予处理,将新闻评论数量小于阈值K的新闻评论进入步骤三处理;阈值K计算如下: K = max _ count × 0.05 ]]>其中,max_count表示所有新闻评论中,新闻标题含有的最大评论数量。步骤三:利用中文分词工具,对数量小于阈值K的每一类新闻标题以及对应的新闻评论进行分词,并进行词性标注;对步骤二中评论数量小于阈值K的新闻评论以及对应的新闻标题进行分词和词性标注。分词的目的是为了将新闻评论转化成一个个词语。根据汉语语言的特点,能反映事件方面或用户观点的词语都是实词。因此,在分词的过程中需要对每一个词语进行词性标注对分词之后的结果进行词性筛选和词频筛选两种处理。词性筛选是指将分词结果中的名词、形容词、动词保留,将其他词性的词语去掉。对分词进行词性筛选能提高新闻评论的分类精度。词频筛选是指将分词结果中的低频词和高频词去掉。低频词很可能是只在少数新闻评论中出现的,不具有代表性。高频词有两种:一种是大部分新闻评论都出现的词语;另一类是错本文档来自技高网...
一种针对千万级规模新闻评论的观点挖掘方法

【技术保护点】
一种针对千万级规模新闻评论的观点挖掘方法,其特征在于,对于某个话题,找到关于该话题的所有新闻标题,然后进行如下步骤:步骤一:根据新闻标题统计各新闻标题对应的千万级规模新闻评论的数量;初始根据新闻标题为新闻评论进行分类,每个新闻标题下的新闻评论为一类;步骤二:将新闻评论数量大于或等于阈值K的各类新闻评论不予处理,将新闻评论数量小于阈值K的新闻评论进入步骤三处理;阈值K为:K=max_count×0.05]]>其中,max_count表示新闻标题对应的最大评论数量;步骤三:利用中文分词工具,对数量小于阈值K的每一类新闻标题以及对应的新闻评论进行分词,并进行词性标注;经过分词后,将评论数量小于阈值K的新闻评论以及对应该类的新闻标题分成名词、形容词和动词;步骤四:根据分词结果对评论数量小于阈值K的所有新闻评论聚类,并得到聚类后每类新闻评论的类别标签;步骤五:对评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类新闻评论进行关键词对提取;步骤六:根据评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类新闻评论,统计每一类新闻评论的比例和混杂度;新闻评论的混杂度,针对聚类后的含有类别标签的各类新闻评论,统计各类新闻评论中包含的新闻标题个数;步骤七:根据关键词对,筛选并提取每一类新闻评论中的代表性文本。...

【技术特征摘要】
1.一种针对千万级规模新闻评论的观点挖掘方法,其特征在于,对于某个话题,
找到关于该话题的所有新闻标题,然后进行如下步骤:
步骤一:根据新闻标题统计各新闻标题对应的千万级规模新闻评论的数量;初始
根据新闻标题为新闻评论进行分类,每个新闻标题下的新闻评论为一类;
步骤二:将新闻评论数量大于或等于阈值K的各类新闻评论不予处理,将新闻评
论数量小于阈值K的新闻评论进入步骤三处理;
阈值K为:
K = max _ count × 0.05 ]]>其中,max_count表示新闻标题对应的最大评论数量;
步骤三:利用中文分词工具,对数量小于阈值K的每一类新闻标题以及对应的新
闻评论进行分词,并进行词性标注;
经过分词后,将评论数量小于阈值K的新闻评论以及对应该类的新闻标题分成名
词、形容词和动词;
步骤四:根据分词结果对评论数量小于阈值K的所有新闻评论聚类,并得到聚类
后每类新闻评论的类别标签;
步骤五:对评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类新
闻评论进行关键词对提取;
步骤六:根据评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类
新闻评论,统计每一类新闻评论的比例和混杂度;
新闻评论的混杂度,针对聚类后的含有类别标签的各类新闻评论,统计各类新闻
评论中包含的新闻标题个数;
步骤七:根据关键词对,筛选并提取每一类新闻评论中的代表性文本。
2.如权利要求1所述的一种针对千万级规模新闻评论的观点挖掘方法,其特征
在于,步骤三中所述的分词,对每一个词语进行词性标注,对分词之后的结果进行词
性筛选和词频筛选两种处理;
词性筛选是指将分词结果中的名词、形容词和动词保留,将其他词性的词语去掉;
词频筛选是指将分词结果中的低频词和高频词去掉。
3.如权利要求1所述的一种针对千万级规模新闻评论的观点挖掘方法,其特征
在于,步骤四中所述的聚类,采用K-means聚类算法,优选距离函数是余弦相似度,
余弦相似度Cos(Di,Dj)计算公式为:
Cos ( D i , D j ) = Σ k = 1 n w ik w jk ...

【专利技术属性】
技术研发人员:刘春阳程工吴俊杰张旭王卿庞琳李雄袁石
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1