The invention provides a method and system for filtering individualized spam information in public opinion information. The steps of the method include: building an in-memory index library based on a general vocabulary and a user's individualized vocabulary library; segmenting the original document containing public opinion information to remove the stop words; and according to the memory index library, the process is as follows: The processed documents are identified to recognize garbage information and non-garbage information; the above non-garbage information is input into the renewable information classification model to further identify garbage information and non-garbage information; the information is classified based on the general garbage identification tagging corpus and user personalized garbage identification tagging corpus. The non-spam information identified by the model is tagged with spam information and non-spam information, and a training set is generated to update the information classification model.
【技术实现步骤摘要】
一种舆情信息中的个性化垃圾信息过滤方法及系统
本专利技术涉及网络信息处理
,特别是涉及互联网舆情信息中的个性化垃圾过滤方法及系统。
技术介绍
互联网舆情信息监测涉及到海量的数据信息,而对于其中的垃圾信息,过滤具有重要的作用。首先,垃圾信息过滤有助于获取有效信息,去除无效信息;其次,对于垃圾信息的过滤,可以减轻系统检索压力,减小数据规模。现有技术存在的问题,是对于大规模舆情信息的处理中垃圾信息过滤中的不足,较长的处理时间,模型的更新较慢,无法快速捕获垃圾信息的变异特征,用户难以定制个性化的垃圾过滤机制。
技术实现思路
鉴于现有技术不足,本专利技术目的是提出一种舆情信息中的个性化垃圾信息过滤方法及系统。为达到上述目的,本专利技术采用如下技术方案:一种舆情信息中的个性化垃圾信息过滤方法,其步骤包括:基于通用词库和用户个性化词库,构建内存索引库;对含有舆情信息的原始文档进行分词处理,去除停用词;根据所述内存索引库,对经过上述处理的文档进行识别,识别出垃圾信息和非垃圾信息;将上述非垃圾信息输入到可更新的信息分类模型中,进一步识别出垃圾信息和非垃圾信息;基于通用垃圾识别标注语料和用户个性化垃圾识别标注语料,对所述信息分类模型识别出的非垃圾信息进行垃圾信息和非垃圾信息的标记,生成训练集,用来更新所述信息分类模型。进一步地,所述通用词库和用户个性化词库均包括垃圾词词典和非垃圾词词典。进一步地,所述通用垃圾识别标注语料和用户个性化垃圾识别标注语料包括含有是否为垃圾信息标记的原始文档。进一步地,将所述训练集输入到所述用户个性化垃圾识别标注语料中进行更新。进一步地,所述内存索 ...
【技术保护点】
1.一种舆情信息中的个性化垃圾信息过滤方法,其步骤包括:基于通用词库和用户个性化词库,构建内存索引库;对含有舆情信息的原始文档进行分词处理,去除停用词;根据所述内存索引库,对经过上述处理的文档进行识别,识别出垃圾信息和非垃圾信息;将上述非垃圾信息输入到可更新的信息分类模型中,进一步识别出垃圾信息和非垃圾信息;基于通用垃圾识别标注语料和用户个性化垃圾识别标注语料,对所述信息分类模型识别出的非垃圾信息进行垃圾信息和非垃圾信息的标记,生成训练集,用来更新所述信息分类模型。
【技术特征摘要】
1.一种舆情信息中的个性化垃圾信息过滤方法,其步骤包括:基于通用词库和用户个性化词库,构建内存索引库;对含有舆情信息的原始文档进行分词处理,去除停用词;根据所述内存索引库,对经过上述处理的文档进行识别,识别出垃圾信息和非垃圾信息;将上述非垃圾信息输入到可更新的信息分类模型中,进一步识别出垃圾信息和非垃圾信息;基于通用垃圾识别标注语料和用户个性化垃圾识别标注语料,对所述信息分类模型识别出的非垃圾信息进行垃圾信息和非垃圾信息的标记,生成训练集,用来更新所述信息分类模型。2.根据权利要求1所述的方法,其特征在于,所述通用词库和用户个性化词库均包括垃圾词词典和非垃圾词词典。3.根据权利要求1所述的方法,其特征在于,所述通用垃圾识别标注语料和用户个性化垃圾识别标注语料包括含有是否为垃圾信息标记的原始文档。4.根据权利要求1所述的方法,其特征在于,将所述训练集输入到所述用...
【专利技术属性】
技术研发人员:齐保元,李鹏,王斌,周美林,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。