一种垃圾信息判断方法和装置以及一种服务器集群制造方法及图纸

技术编号:16399224 阅读:26 留言:0更新日期:2017-10-17 19:38
本发明专利技术的实施例提供了一种垃圾信息判断方法和装置以及一种服务器集群,所述垃圾信息判断方法包括:获取特征词汇表,其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到;接收待判断的目标信息;将所述目标信息与所述特征词汇表进行比较,以判断所述目标信息是否为垃圾信息。

【技术实现步骤摘要】
一种垃圾信息判断方法和装置以及一种服务器集群
本专利技术的实施例涉及通信
,尤其涉及一种垃圾信息判断方法和装置以及一种服务器集群。
技术介绍
网络社区及论坛的兴起由来已久,网民们可以在论坛上针对自己感兴趣的事物发表观点,为了及时获取用户对于自己使用的某种产品或服务的看法,产品或服务提供商可以借助舆情分析系统来挖掘网民的情感倾向及观点态度。然而,网民评论的内容往往质量良莠不齐,并且会掺杂有大量与观点表达无关的评论,这部分评论语料不仅浪费系统资源,还将影响舆情分析结论的准确性。在现有技术中,一般基于Logistic回归来识别网络社区中的垃圾评论。具体地,这一方案采用人为标注的垃圾评论与合法评论作为训练数据,利用向量空间模型来表示每条评论,并基于Logistic算法训练垃圾评论识别模型。但是,该方案得到的模型对垃圾评论的识别效果很大程度上依赖于人为标注的评论语料,由于人为标注数据的成本较大,所以很难得到较为充足的标注数据;此外,即便能够获得充足的标注数据,但由于网络用语总在变化,用于训练模型的数据同样需要不断更新,这也极大增加了数据标注的难度。因此,需要一种能够准确有效地判断垃圾信息的方法和装置。
技术实现思路
根据本专利技术的一个方面,提供了一种垃圾信息判断方法,包括:获取特征词汇表,其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到;接收待判断的目标信息;将所述目标信息与所述特征词汇表进行比较,以判断所述目标信息是否为垃圾信息。根据本专利技术的另一个方面,提供了一种垃圾信息判断装置,包括:获取单元,配置为获取特征词汇表,其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到;接收单元,配置为接收待判断的目标信息;判断单元,配置为将所述目标信息与所述特征词汇表进行比较,以判断所述目标信息是否为垃圾信息。根据本专利技术的再一方面,提供了一种服务器集群,包括:至少一个处理器;至少一个存储器;和存储在所述至少一个存储器的一个或多个存储器中的计算机程序指令,在所述计算机程序指令被所述至少一个处理器中的一个或多个处理器运行时,使得所述一个或多个处理器执行以下步骤:获取特征词汇表,其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到;接收待判断的目标信息;将所述目标信息与所述特征词汇表进行比较,以判断所述目标信息是否为垃圾信息。在根据本专利技术提供的垃圾信息判断方法和装置以及服务器集群中,可以根据样本信息的文本相似度计算获取特征词汇表,并根据特征词汇表的信息判断目标信息是否为垃圾信息。本专利技术提供的垃圾信息判断方法能够准确判断垃圾信息,并且能够及时高效地对垃圾信息进行更新,以获取更加精确的舆情分析数据,节约系统资源。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1示意性图示了根据本专利技术实施例的垃圾信息判断方法的流程图;图2示意性图示了根据本专利技术实施例的垃圾信息判断装置的结构框图;图3示意性图示了根据本专利技术实施例的服务器集群的结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。在网络社区、论坛或贴吧等网民聚集地,用户往往会针对某个或某些特定的主题发表自己的看法和观点。舆情分析系统可以用来很好地分析网民对某主题的舆论倾向和观点态度。然而,在这些网络社区中,往往掺杂着大量无意义或重复的垃圾评论或攻击性言语等,对系统分析结果带来较大的影响。考虑到上述因素,本专利技术实施例提出如下的垃圾信息判断方法。图1示出根据本专利技术实施例的垃圾信息判断方法100的流程图,所述方法可以由计算机执行。如图1所示,在步骤S101中,获取特征词汇表,其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到。本步骤中,考虑到网络社区或论坛中的垃圾信息往往具有两两之间相似度较高的特点,因此,在本专利技术实施例中,用于判断垃圾信息的特征词汇表并非通过神经网络训练得到,而是通过对预先获取的多条样本信息之间进行文本相似度计算而得到。具体地,在本步骤中,可以首先获取多条样本信息中每条样本信息的样本信息向量;随后对多条样本信息向量计算两两之间的文本相似度,当存在其中两条样本信息向量之间的文本相似度符合预设条件时,将所述两条样本信息向量分别对应的两条样本信息共同列入第一信息集合;此外,将没有列入第一信息集合的样本信息列入第二信息集合;最后根据所述第一信息集合和所述第二信息集合的内容获取所述特征词汇表。其中,获取多条样本信息中每一条的样本信息向量可以包括:对所述多条样本信息中的每一条样本信息进行分词,获取分词后每个词汇的词向量;根据每一条样本信息中每个词汇的词向量获取对应的样本信息向量。例如,针对某一条内容为“我希望中国队夺冠”的样本信息,分词后得到的每个词可以分别是“我”、“希望”、“中国队”和“夺冠”。在对样本信息分词之后,可以获取每个词汇的词向量。词向量是用来将语言中的词进行数学化的一种方式,其基本思想是将每个词汇映射成一个K维实数向量(其中,K可以为模型中的超参数,例如可以为200),而将一条样本信息中每个词汇的词向量进行相应的计算汇总则可以得到样本信息向量。两条样本信息分别对应的样本信息向量可以用于判断两条样本信息之间的语义相似度。如上所述,当两条样本信息向量之间的文本相似度符合预设条件,例如大于预设阈值时,可以判断这两条样本信息向量所对应的样本信息可能为垃圾信息,从而将这两条样本信息共同列入第一信息集合,即垃圾信息集合。在本专利技术一个实施例中,可选地,预设阈值可以为0.6,或0.7。并在对所有预先获取的样本信息对应的样本信息向量两两之间均计算完毕文本相似度之后,将所有没有被列入第一信息集合的样本信息均列入第二信息集合,即非垃圾信息集合。以上划分第一信息集合和第二信息集合的方法仅为示例,在实际应用中,可以采用任意划分第一信息集合和第二信息集合的方式,也可以选择不同的预设阈值划分这两个集合。在划分完毕第一信息集合和第二信息集合之后,可以根据所述第一信息集合和所述第二信息集合的内容获取所述特征词汇表。具体地,可以首先获取所述第一信息集合中的样本信息所包含的所有词汇的总词汇表;然后针对所述总词汇表中的每个词汇,计算对应所述第一信息集合的卡方统计量,将所述卡方统计量符合预设条件,例如大于一定阈值的词汇列入所述特征词汇表。具体地,根据第一信息集合和第二信息集合计算对应第一信息集合的卡方统计量的具体公式为:其中,chi为卡方统计量,A为出现目标词,且为第一信息集合的样本信息数量;B为出现目标词,且为第二信息集合的样本信息数量;C为未出现目标词,且为第一信息集合的样本信息数量;D为未出现目标词,且为第二信息集合的样本信息数量。例如,对于“求关注”这个词,出现这个词,且为第一信息集合的样本信息数量A为900;出现这个词,且为第二信息集合的样本信息数量B为200;未出现这个词,且为第一信息集合本文档来自技高网...
一种垃圾信息判断方法和装置以及一种服务器集群

【技术保护点】
一种垃圾信息判断方法,包括:获取特征词汇表,其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到;接收待判断的目标信息;将所述目标信息与所述特征词汇表进行比较,以判断所述目标信息是否为垃圾信息。

【技术特征摘要】
1.一种垃圾信息判断方法,包括:获取特征词汇表,其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到;接收待判断的目标信息;将所述目标信息与所述特征词汇表进行比较,以判断所述目标信息是否为垃圾信息。2.如权利要求1所述的方法,其中,所述获取特征词汇表包括:获取多条样本信息中每条样本信息的样本信息向量;对多条样本信息向量计算两两之间的文本相似度,当存在其中两条样本信息向量之间的文本相似度符合预设条件时,将所述两条样本信息向量分别对应的两条样本信息共同列入第一信息集合;将没有列入第一信息集合的样本信息列入第二信息集合;根据所述第一信息集合和所述第二信息集合的内容获取所述特征词汇表。3.如权利要求2所述的方法,其中,所述获取多条样本信息中每一条的样本信息向量包括:对所述多条样本信息中的每一条样本信息进行分词,获取分词后每个词汇的词向量;根据每一条样本信息中每个词汇的词向量获取对应的样本信息向量。4.如权利要求2所述的方法,其中,所述其中两条样本信息向量之间的文本相似度符合预设条件包括:所述两条样本信息向量之间的文本相似度大于预设阈值。5.如权利要求2所述的方法,其中,所述根据所述第一信息集合和所述第二信息集合的内容获取所述特征词汇表包括:获取所述第一信息集合中的样本信息所包含的所有词汇的总词汇表;针对所述总词汇表中的每个词汇,计算对应所述第一信息集合的卡方统计量,将所述卡方统计量符合预设条件的词汇列入所述特征词汇表。6.如权利要求5所述的方法,其中,所述方法还包括:利用所述第二信息集合中符合预设条件的词汇对所述特征词汇表中的词汇进行过滤,得到过滤后的特征词汇表。7.如权利要求1所述的方法,其中,所述将所述目标信息与所述特征词汇表进行比较,以判断所述目标信息是否为垃圾信息包括:计算所述目标信息中包含所述特征词汇表中词汇的比例;当所述比例超过预设阈值时,判断所述目标信息为垃圾信息。8.一种垃圾信息判断装置,包括:获取单元,配置为获取特征词汇表,其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到;接收单元...

【专利技术属性】
技术研发人员:宋时雨
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1