【技术实现步骤摘要】
实时流式文本分级监控方法和装置
本专利技术实施例涉及社交网络
,尤其涉及一种实时流式文本分级监控方法和装置。
技术介绍
近年来,伴随着信息技术的蓬勃发展,互联网的使用大范围迅速普及,大量不同领域、不同地域、不同时域的信息在产生伊始便经由互联网广泛传播,这一方面有利于人们及时了解实时信息,把握新鲜资讯;但大量冗余、重复乃至错误的“暗信息”不仅会增加广大用户浏览有效信息的难度,甚至会误导用户对信息或事态产生错误的理解或判断。以新浪微博、腾讯微博为代表的一系列实时用户在线分享交流社区自出现以来很快便被广大互联网用户接受并使用,其原因主要包含以下几点:注册方便,仅通过邮箱或电话号码即可快速拥有账户;自由便捷,用户可以根据自身需要及心情变化随时随地分享自己的想法或状态;实时快速,用户能够通过消息推送、主动搜索、订阅关注等多种方式及时获取想要的多种信息;用户广泛,用户不仅能够获取自身亲友圈的信息与状态,还能与喜欢的明星发生互动;增强社交,可以方便陌生人相互熟悉,创建新的社交模式。微博等新颖的社交模式拥有众多出众的优点,因此产品受众范围十分广泛,自推出时起便快速积攒大量活 ...
【技术保护点】
一种实时流式文本分级监控方法,其特征在于,包括:实时获取流式的短文本;对所述短文本进行数据清洗、数据补齐和数据过滤处理,生成结构化数据;对所述结构化数据进行文本分词处理,获得K个词;所述K为大于0的整数;根据敏感词数据库,对所述K个词进行敏感分析,获得所述短文本的敏感值;根据情感词数据库,对所述K个词进行情感分析,获得所述短文本的情感值;根据所述敏感值与所述情感值,获得所述短文本所属的用户的监控等级。
【技术特征摘要】
1.一种实时流式文本分级监控方法,其特征在于,包括:实时获取流式的短文本;对所述短文本进行数据清洗、数据补齐和数据过滤处理,生成结构化数据;对所述结构化数据进行文本分词处理,获得K个词;所述K为大于0的整数;根据敏感词数据库,对所述K个词进行敏感分析,获得所述短文本的敏感值;根据情感词数据库,对所述K个词进行情感分析,获得所述短文本的情感值;根据所述敏感值与所述情感值,获得所述短文本所属的用户的监控等级。2.根据权利要求1所述的方法,其特征在于,所述根据所述敏感值与所述情感值,获得所述短文本对应的用户的监控等级,包括:根据所述敏感值和所述情感值,获得所述用户的初始监控等级;根据所述用户的历史短文本,获得所述用户的历史监控等级;根据所述用户的初始监控等级和所述历史监控等级,获得所述用户的监控等级。3.根据权利要求2所述的方法,其特征在于,所述根据所述用户的历史短文本,获得所述用户的历史监控等级之前,还包括:确定所述用户的初始监控等级大于第一预设监控等级。4.根据权利要求1所述的方法,其特征在于,还包括:标注所述K个词的词性;根据所述K个词的词性,对所述K个词进行语义分析;所述根据敏感词数据库,对所述K个词进行敏感分析,获得所述短文本的敏感值,包括:根据敏感词数据库,对语义分析后的所述K个词进行敏感分析,获得所述短文本的敏感值;所述根据情感词数据库,对所述K个词进行情感分析,获得所述短文本的情感值,包括:根据情感词数据库,对语义分析后的所述K个词进行情感分析,获得所述短文本的情感值。5.根据权利要求1所述的方法,其特征在于,所述敏感词数据库包括以下至少一种:网络统计的敏感词、预设的敏感词;所述情感词数据库包括以下至少一种:网络统计的情感词、预设的情感词。6.根据权利要求5所述的方法,其特征在于,还包括:当所述用户的监控等级大于第二...
【专利技术属性】
技术研发人员:张日崇,李晨,兰天,李建欣,彭浩,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。