【技术实现步骤摘要】
本专利技术涉及计算机
,尤其是一种基于Pitman-Yor过程的新闻热点发现方法。
技术介绍
大多数分类算法与少部分聚类算法都只是对数据层干预,例如采用欠采样或是过采样等方法。另一个,多数聚类算法面临的问题是:类簇个数是提前假设的。实际上,现实中很难设定具体的类簇个数。如今,在热点发现这个领域,已有国内外一些大学或科研机构对网络舆情热点发现进行了大量的研究,也相应的取得丰硕的结果。其中以美国的TDT(Topic Detection and Tracking)研究项目最为引人关注。这个项目可以实现从数据流中归纳重要信息。在国内,研究比较晚,但也有引起了大量机构在这方向的关注,比如方正公司、人民日报系统等,但他们关注的侧重点略有不同。但大都都是从热点个数是假定的角度出发,对热点进行挖掘,而不能处理好热点个数随着数据集的增加而增加的情况;其二,没有考虑到真实的数据集是存在极端不平衡的,特别是对于这种新的热点类别,往往相对于已存在的类别是个极小类别,所以给新热点的识别带来了更大的困难。
技术实现思路
本专利技术所要解决的技术问题是:提供一种基于Pitman-Yor过程的新闻热点发现方法,它能快速、准确的发现网络环境中所关注的新闻热点,避免了在无监督聚类分析问题中,对存在高度不平衡数据集的文本数据下,对极小类簇的低效识别问题。本专利技术是这样实现的:基于Pitman-Yor过程的新闻热点发现方法,包括如下步骤:1)根据从互联网中抓取新闻文本原始数据集,利用数据预处理工具处理抓取到的原始数据集,去除不在正常值内的文档背景词项,该正常值的范围为1≤词频≤5000,统 ...
【技术保护点】
一种基于Pitman‑Yor过程的新闻热点发现方法,其特征在于:包括如下步骤:1)根据从互联网中抓取新闻文本原始数据集,利用数据预处理工具处理抓取到的原始数据集,去除不在正常值内的文档背景词项,该正常值的范围为1≤词频≤5000,统计文本中出现的每个词项次数,最终生成相应的词汇字典和合成一个含有全部数据的语料库数据矩阵;2)根据词汇字典和合成的语料库数据矩阵,对语料库的数据矩阵进行初始化,即每个文本为一个类簇,则初始的类簇个数为N;3)利用基于PYP模型的新闻热点发现聚类算法,则聚类分析的类簇个数为[1,N];4)对聚类分析结果采用NMI聚类评价方法进行评估结果;若NMI接近于1,则是本文需要的实验结果;此时得到聚类结果中的极小类簇,就是发现的新闻热点。
【技术特征摘要】
1.一种基于Pitman-Yor过程的新闻热点发现方法,其特征在于:包括如下步骤:1)根据从互联网中抓取新闻文本原始数据集,利用数据预处理工具处理抓取到的原始数据集,去除不在正常值内的文档背景词项,该正常值的范围为1≤词频≤5000,统计文本中出现的每个词项次数,最终生成相应的词汇字典和合成一个含有全部数据的语料库数据矩阵;2)根据词汇字典和合成的语料库数据矩阵,对语料库的数据矩阵进行初始化,即每个文本为一个类簇,则初始的类簇个数为N;3)利用基于PYP模型的新闻热点发现聚类算法,则聚类分析的类簇个数为[1,N];4)对聚类分析结果采用NMI聚类评价方法进行评估结果;若NMI接近于1,则是本文需要的实验结果;此时得到聚类结果中的极小类簇,就是发现的新闻热点。2.根据权利要求1所述的基于Pitman-Yor过程的新闻热点发现方法,其特征在于:所述的数据预处理工具为分词器。3.根据权利要求1所述的基于Pitman-Yor过程的新闻热点发现方法,其特征在于:步骤3)中所述的聚类处理的算法为:基于PYP模型改进的、折扣...
【专利技术属性】
技术研发人员:黄瑞章,钟文良,
申请(专利权)人:贵州大学,贵州耕云科技有限公司,
类型:发明
国别省市:贵州;52
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。