一种论坛帖子特征识别方法及装置制造方法及图纸

技术编号:11507195 阅读:114 留言:0更新日期:2015-05-27 08:49
本发明专利技术公开了一种论坛帖子特征识别方法和装置,该方法包括:服务器获取帖子的标题和内容;对所述帖子的标题和内容进行分词以计算分词得到的各词语的词频,将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为所述帖子的特征词,N为大于0的自然数;计算所述特征词与标签库内的标签词的关联系数,并确定最大关联系数;其中,所述标签库预先保存多个用于表征帖子特征的标签词;以及将所述最大关联系数对应的标签词作为所述帖子的标签。利用本发明专利技术,能够识别帖子的特征,并且能够在海量帖子中实现较高准确率的特征识别。

【技术实现步骤摘要】
一种论坛帖子特征识别方法及装置
本专利技术涉及网络信息分析与数据挖掘
,特别是涉及一种论坛帖子特征识别方法及装置。
技术介绍
随着计算机网络的不断发展,网络信息成为日常生活中的重要组成部分,互联网以及成为人们获取信息、交流沟通的重要场所。大量实时信息充斥互联网之上,在这些海量的Web信息资源中,蕴含着巨大的潜在价值。面对指数增长的信息信息,如何有效掌握海量数据,提取其中的热点话题,或者获取自己想要的信息,成为长期困扰网络用户的难题。当前对帖子内容识别主要是基于TF-IDF(TermFrequency-InverseDocumentFrequency)算法,计算词汇的TF值和IDF值,然后基于K-means做聚类分析,再人工对聚类结果提取特定的标签词。这种算法只适用于对少量帖子进行识别的情况,并不适用于对大数据量的帖子进行识别。在基于K-means聚类分析时,中间产出的稀疏矩阵是包括分布式集群在内都很难承受的量级。并且,聚类效果有限,之后的分类提取耗费的人力也很大。即使已经有分类标签集,使用IDF对新词或少见词进行聚类识别也具有有很差的鲁棒性,帖子特征向量的提取会受到很大的影响。
技术实现思路
本专利技术主要解决的技术问题是提供一种论坛帖子特征识别方法及装置,能够对海量帖子进行内容特征的识别,并且具有较高的准确率。为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种论坛帖子特征识别方法,所述方法包括:服务器获取帖子的标题和内容;对所述帖子的标题和内容进行分词以计算分词得到的各词语的词频,将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为所述帖子的特征词,N为大于0的自然数;计算所述特征词与标签库内的标签词的关联系数,并确定最大关联系数;其中,所述标签库预先保存多个用于表征帖子特征的标签词;以及将所述最大关联系数对应的标签词作为所述帖子的标签。其中,所述计算所述特征词与标签库内的标签词的关联系数的步骤具体为:将所述特征词映射到词向量空间;其中,所述词向量空间是基于word2vec并根据所述标签词的共现频率预先构造的;依次计算所述词向量空间中的向量与所述标签库内的标签词的关联系数。其中,所述对所述帖子的标题和内容进行分词以计算分词得到的各词语的词频,将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为所述帖子的特征词的步骤之后,所述方法还包括:判断所述特征词的数量是否低于预定值;若是,则将所述帖子过滤而不做特征识别;否则,执行所述计算所述特征词与标签库内的标签词的关联系数,并确定最大关联系数的步骤。其中,当所述特征词的数量不低于所述预定值时,所述计算所述特征词与标签库内的标签词的关联系数,并确定最大关联系数的步骤之后,所述方法还包括:计算所述特征词与所述标签库中的各标签词的关联系数的平均值和方差;判断所述最大关联系数与所述平均值和所述方差的关系是否满足如下条件一;dmax<NINE_DB*mean或者dmax<SIX_DB*(mean+std);其中,dmax为所述最大关联系数,mean为所述平均值,std为所述方差,NINE_DB和SIX_DB为已知的设定值;若是,则执行所述将所述最大关联系数对应的标签词作为所述帖子的标签的步骤;否则,确定所述帖子中心分散,并过滤所述帖子而不做特征识别。其中,当所述最大关联系数满足所述条件一时,所述方法还包括:确定第二大关联系数;判断所述最大关联系数、所述第二大关联系数与所述平均值和所述方差的关系是否满足如下条件二;(dmax+dsecond)<SIX_DB*(mean+std);若是,则执行所述将所述最大关联系数对应的标签词作为所述帖子的标签的步骤;否则,确定所述帖子中心分散,并过滤所述帖子而不做类别识别。其中,所述对所述帖子的标题和内容进行分词以计算分词得到的各词语的词频的步骤具体为:将所述帖子的标题和内容进行合并,基于mmseg分词算法对合并后的所述帖子的标题和内容进行分词以计算分词得到的各词语的词频。为解决上述技术问题,本专利技术采用的另一个技术方案是:提供一种论坛帖子特征识别装置,所述装置包括:获取模块,用于获取帖子的标题和内容;特征词确定模块,用于对所述获取模块获取的所述帖子的标题和内容进行分词以计算分词得到的各词语的词频,将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为所述帖子的特征词,N为大于0的自然数;关联系数计算模块,用于计算所述特征词确定模块确定的所述特征词与标签库内的标签词的关联系数,并确定最大关联系数;其中,所述标签库预先保存多个用于表征帖子特征的标签词;以及特征识别模块,用于将所述关联系数计算模块确定的所述最大关联系数对应的标签词作为所述帖子的标签。其中,所述关联系数计算模块具体用于将所述特征词映射到词向量空间,并依次计算所述词向量空间中的向量与所述标签库内的标签词的关联系数;其中,所述词向量空间是基于word2vec并根据所述标签词的共现频率预先构造的。其中,所述装置还包括:过滤模块,用于判断所述特征词确定模块确定的所述特征词的数量是否低于预定值;若是,所述过滤模块将所述帖子过滤,否则,所述关联系数计算模块计算所述特征词确定模块确定的所述特征词与所述标签库内的标签词的关联系数,并确定最大关联系数。其中,当所述特征词的数量不低于所述预定值时,所述过滤模块还用于计算所述特征词与所述标签库中的各标签词的关联系数的平均值和方差,并判断所述最大关联系数与所述平均值和所述方差的关系是否满足如下条件一;dmax<NINE_DB*mean或者dmax<SIX_DB*(mean+std);其中,dmax为所述最大关联系数,mean为所述平均值,std为所述方差,NINE_DB和SIX_DB为已知的设定值;若是,所述特征识别模块将所述最大关联系数对应的标签词作为所述帖子的标签,否则,所述过滤模块将所述帖子过滤。本专利技术的有益效果是:本专利技术通过对帖子的标题和内容进行分词并计算分词得到的词语的词频,将词频从大到小位于前N个位置的词频对应的词语作为该帖子的特征词;计算特征词与标签库内的标签词的关联系数,并将最大关联系数对应的标签词作为帖子的标签,从而识别帖子的特征,并且能够在海量帖子中实现较高准确率的特征识别。附图说明图1是本专利技术一种论坛帖子特征识别方法的第一实施方式的流程图;图2是本专利技术一种论坛帖子特征识别方法中你关联系数方法的流程图;图3是本专利技术一种论坛帖子特征识别方法的第二实施方式的流程图;图4是本专利技术一种论坛帖子特征识别方法的第三实施方式的流程图;图5是本专利技术一种论坛帖子特征识别方法的第四实施方式的结构示意图;图6是本专利技术一种论坛帖子特征识别装置的第一实施方式的结构示意图;图7是本专利技术一种论坛帖子特征识别装置的第二实施方式的结构示意图。具体实施方式下面结合附图和实施方式对本专利技术进行详细说明。请参阅图1,为本专利技术一种论坛帖子特征识别方法的第一实施方式的流程图,该方法包括:步骤S10:服务器获取帖子的标题和内容。用户登录服务器运行的论坛等信息发布平台发布帖子,发布的帖子通常包括标题和内容。并且,发布的帖子还包含发布者的身份信息ID,例如本文档来自技高网...

【技术保护点】
一种论坛帖子特征识别方法,其特征在于,所述方法包括:服务器获取帖子的标题和内容;对所述帖子的标题和内容进行分词以计算分词得到的各词语的词频,将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为所述帖子的特征词,N为大于0的自然数;计算所述特征词与标签库内的标签词的关联系数,并确定最大关联系数;其中,所述标签库预先保存多个用于表征帖子特征的标签词;以及将所述最大关联系数对应的标签词作为所述帖子的标签。

【技术特征摘要】
1.一种论坛帖子特征识别方法,其特征在于,所述方法包括:服务器获取帖子的标题和内容;对所述帖子的标题和内容进行分词以计算分词得到的各词语的词频,将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为所述帖子的特征词,N为大于0的自然数;判断所述特征词的数量是否低于预定值;若是,则将所述帖子过滤而不做特征识别;否则,计算所述特征词与标签库内的标签词的关联系数,并确定最大关联系数;具体地,将所述特征词映射到词向量空间,并依次计算所述词向量空间中的向量与所述标签库内的标签词的关联系数;其中,所述标签库预先保存多个用于表征帖子特征的标签词;所述词向量空间是基于word2vec并根据所述标签词的共现频率预先构造的;计算所述特征词与所述标签库中的各标签词的关联系数的平均值和方差;判断所述最大关联系数与所述平均值和所述方差的关系是否满足如下条件一;dmax<NINE_DB*mean或者dmax<SIX_DB*(mean+std);其中,dmax为所述最大关联系数,mean为所述平均值,std为所述方差,NINE_DB和SIX_DB为已知的设定值;若是,则将所述最大关联系数对应的标签词作为所述帖子的标签;否则,确定所述帖子中心分散,并过滤所述帖子而不做特征识别。2.根据权利要求1所述的论坛帖子特征识别方法,其特征在于,当所述最大关联系数满足所述条件一时,所述方法还包括:确定第二大关联系数;判断所述最大关联系数、所述第二大关联系数与所述平均值和所述方差的关系是否满足如下条件二;(dmax+dsecond)<SIX_DB*(mean+std);其中,dsecond为所述第二大关联系数;若是,则执行所述将所述最大关联系数对应的标签词作为所述帖子的标签的步骤;否则,确定所述帖子中心分散,并过滤所述帖子而不做类别识别。3.根据权利要求1所述的论坛帖子特征识别方法,其特征在于,所述对所述帖...

【专利技术属性】
技术研发人员:陈方毅高家栋苏利祥
申请(专利权)人:厦门美柚信息科技有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1