一种垃圾信息判断方法和装置以及一种服务器集群制造方法及图纸

技术编号：16399224 阅读：26 留言：0更新日期：2017-10-17 19:38

本发明专利技术的实施例提供了一种垃圾信息判断方法和装置以及一种服务器集群，所述垃圾信息判断方法包括：获取特征词汇表，其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到；接收待判断的目标信息；将所述目标信息与所述特征词汇表进行比较，以判断所述目标信息是否为垃圾信息。

全部详细技术资料下载

【技术实现步骤摘要】
一种垃圾信息判断方法和装置以及一种服务器集群
本专利技术的实施例涉及通信
，尤其涉及一种垃圾信息判断方法和装置以及一种服务器集群。
技术介绍
网络社区及论坛的兴起由来已久，网民们可以在论坛上针对自己感兴趣的事物发表观点，为了及时获取用户对于自己使用的某种产品或服务的看法，产品或服务提供商可以借助舆情分析系统来挖掘网民的情感倾向及观点态度。然而，网民评论的内容往往质量良莠不齐，并且会掺杂有大量与观点表达无关的评论，这部分评论语料不仅浪费系统资源，还将影响舆情分析结论的准确性。在现有技术中，一般基于Logistic回归来识别网络社区中的垃圾评论。具体地，这一方案采用人为标注的垃圾评论与合法评论作为训练数据，利用向量空间模型来表示每条评论，并基于Logistic算法训练垃圾评论识别模型。但是，该方案得到的模型对垃圾评论的识别效果很大程度上依赖于人为标注的评论语料，由于人为标注数据的成本较大，所以很难得到较为充足的标注数据；此外，即便能够获得充足的标注数据，但由于网络用语总在变化，用于训练模型的数据同样需要不断更新，这也极大增加了数据标注的难度。因此，需要一种能够准确有效地判断垃圾信息的方法和装置。
技术实现思路
根据本专利技术的一个方面，提供了一种垃圾信息判断方法，包括：获取特征词汇表，其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到；接收待判断的目标信息；将所述目标信息与所述特征词汇表进行比较，以判断所述目标信息是否为垃圾信息。根据本专利技术的另一个方面，提供了一种垃圾信息判断装置，包括：获取单元，配置为获取特征词汇表，其中所述特征...
一种垃圾信息判断方法和装置以及一种服务器集群

【技术保护点】
一种垃圾信息判断方法，包括：获取特征词汇表，其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到；接收待判断的目标信息；将所述目标信息与所述特征词汇表进行比较，以判断所述目标信息是否为垃圾信息。

【技术特征摘要】
1.一种垃圾信息判断方法，包括：获取特征词汇表，其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到；接收待判断的目标信息；将所述目标信息与所述特征词汇表进行比较，以判断所述目标信息是否为垃圾信息。2.如权利要求1所述的方法，其中，所述获取特征词汇表包括：获取多条样本信息中每条样本信息的样本信息向量；对多条样本信息向量计算两两之间的文本相似度，当存在其中两条样本信息向量之间的文本相似度符合预设条件时，将所述两条样本信息向量分别对应的两条样本信息共同列入第一信息集合；将没有列入第一信息集合的样本信息列入第二信息集合；根据所述第一信息集合和所述第二信息集合的内容获取所述特征词汇表。3.如权利要求2所述的方法，其中，所述获取多条样本信息中每一条的样本信息向量包括：对所述多条样本信息中的每一条样本信息进行分词，获取分词后每个词汇的词向量；根据每一条样本信息中每个词汇的词向量获取对应的样本信息向量。4.如权利要求2所述的方法，其中，所述其中两条样本信息向量之间的文本相似度符合预设条件包括：所述两条样本信息向量之间的文本相似度大于预设阈值。5.如权利要求2所述的方法，其中，所述根据所述第一信息集合和所述第二信息集合的内容获取所述特征词汇表包括：获取所述第一信息集合中的样本信息所包含的所有词汇的总词汇表；针对所述总词汇表中的每个词汇，计算对应所述第一信息集合的卡方统计量，将所述卡方统计量符合预设条件的词汇列入所述特征词汇表。6.如权利要求5所述的方法，其中，所述方法还包括：利用所述第二信息集合中符合预设条件的词汇对所述特征词汇表中的词汇进行过滤，得到过滤后的特征词汇表。7.如权利要求1所述的方法，其中，所述将所述目标信息与所述特征词汇表进行比较，以判断所述目标信息是否为垃圾信息包括：计算所述目标信息中包含所述特征词汇表中词汇的比例；当所述比例超过预设阈值时，判断所述目标信息为垃圾信息。8.一种垃圾信息判断装置，包括：获取单元，配置为获取特征词汇表，其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到；接收单元...

【专利技术属性】
技术研发人员：宋时雨，
申请(专利权)人：联想北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人