【技术实现步骤摘要】
本专利技术属于数据挖掘领域,涉及一种观点挖掘技术,具体的说是一种针对千万级规模新闻评论的观点挖掘方法。
技术介绍
随着网民规模的不断增大,社会化媒体也得到迅速地发展,以论坛、微博、微信为代表逐渐渗透到全民生活和工作的每一个层面,对人们的行为模式、心理模式产生了极为深远的影响。同时社会化媒体每天都会产生大量的短文本,含有大量的表达事件方面或用户观点的信息。通过分析该信息,人们一方面可以了解某一事件或话题的信息扩散情况,另一方面通过观察其他人对某一事件或话题的看法,了解到其观点偏好和行为特征,这对社会化媒体舆情监控、社会化媒体营销等方面有着重要的作用。如何从大量的社会化媒体短文本中提取出能表达事件方面或用户观点的关键词成为当前的研究重点。新闻评论是社会各界人士对社会化主流媒体所发布的新闻的看法,这些评论既能反映人们对某一新闻的观点,又能反应人们对某一新闻关注的方面。但是,由于新闻评论具有数量大,长度短,用词口语化,汉语语言的多样性等特点,对新闻评论进行观点挖掘具有一定的难度。
技术实现思路
本专利技术的目的是:在信息爆炸式增长的情况下,针对如何高效地从某一话题的大量新闻评论文本中提取出事件方面或用户观点的问题,提出了一种针对千万级规模新闻评论的观点挖掘方法。该方法具体步骤如下:步骤一:根据新闻标题统计各新闻标题对应的千万级规模新闻评论的数量;初始根据新闻标题为新闻评论进行分类,每个新闻标题下的新闻 ...
【技术保护点】
一种针对千万级规模新闻评论的观点挖掘方法,其特征在于,对于某个话题,找到关于该话题的所有新闻标题,然后进行如下步骤:步骤一:根据新闻标题统计各新闻标题对应的千万级规模新闻评论的数量;初始根据新闻标题为新闻评论进行分类,每个新闻标题下的新闻评论为一类;步骤二:将新闻评论数量大于或等于阈值K的各类新闻评论不予处理,将新闻评论数量小于阈值K的新闻评论进入步骤三处理;阈值K为:K=max_count×0.05]]>其中,max_count表示新闻标题对应的最大评论数量;步骤三:利用中文分词工具,对数量小于阈值K的每一类新闻标题以及对应的新闻评论进行分词,并进行词性标注;经过分词后,将评论数量小于阈值K的新闻评论以及对应该类的新闻标题分成名词、形容词和动词;步骤四:根据分词结果对评论数量小于阈值K的所有新闻评论聚类,并得到聚类后每类新闻评论的类别标签;步骤五:对评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类新闻评论进行关键词对提取;步骤六:根据评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类新闻评论,统计每一类新闻评论的比例和混杂度;新闻评论的混杂度,针对聚类后 ...
【技术特征摘要】
1.一种针对千万级规模新闻评论的观点挖掘方法,其特征在于,对于某个话题,
找到关于该话题的所有新闻标题,然后进行如下步骤:
步骤一:根据新闻标题统计各新闻标题对应的千万级规模新闻评论的数量;初始
根据新闻标题为新闻评论进行分类,每个新闻标题下的新闻评论为一类;
步骤二:将新闻评论数量大于或等于阈值K的各类新闻评论不予处理,将新闻评
论数量小于阈值K的新闻评论进入步骤三处理;
阈值K为:
K = max _ count × 0.05 ]]>其中,max_count表示新闻标题对应的最大评论数量;
步骤三:利用中文分词工具,对数量小于阈值K的每一类新闻标题以及对应的新
闻评论进行分词,并进行词性标注;
经过分词后,将评论数量小于阈值K的新闻评论以及对应该类的新闻标题分成名
词、形容词和动词;
步骤四:根据分词结果对评论数量小于阈值K的所有新闻评论聚类,并得到聚类
后每类新闻评论的类别标签;
步骤五:对评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类新
闻评论进行关键词对提取;
步骤六:根据评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类
新闻评论,统计每一类新闻评论的比例和混杂度;
新闻评论的混杂度,针对聚类后的含有类别标签的各类新闻评论,统计各类新闻
评论中包含的新闻标题个数;
步骤七:根据关键词对,筛选并提取每一类新闻评论中的代表性文本。
2.如权利要求1所述的一种针对千万级规模新闻评论的观点挖掘方法,其特征
在于,步骤三中所述的分词,对每一个词语进行词性标注,对分词之后的结果进行词
性筛选和词频筛选两种处理;
词性筛选是指将分词结果中的名词、形容词和动词保留,将其他词性的词语去掉;
词频筛选是指将分词结果中的低频词和高频词去掉。
3.如权利要求1所述的一种针对千万级规模新闻评论的观点挖掘方法,其特征
在于,步骤四中所述的聚类,采用K-means聚类算法,优选距离函数是余弦相似度,
余弦相似度Cos(Di,Dj)计算公式为:
Cos ( D i , D j ) = Σ k = 1 n w ik w jk ...
【专利技术属性】
技术研发人员:刘春阳,程工,吴俊杰,张旭,王卿,庞琳,李雄,袁石,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。