实时流式文本分级监控方法和装置制造方法及图纸

技术编号:15704892 阅读:88 留言:0更新日期:2017-06-26 10:16
本发明专利技术实施例提供一种实时流式文本分级监控方法和装置,包括:实时获取流式的短文本;对所述短文本进行数据清洗、数据补齐和数据过滤处理,生成结构化数据;对所述结构化数据进行文本分词处理,获得K个词;所述K为大于0的整数;根据敏感词数据库,对所述K个词进行敏感分析,获得所述短文本的敏感值;根据情感词数据库,对所述K个词进行情感分析,获得所述短文本的情感值;根据所述敏感值与所述情感值,获得所述短文本所属的用户的监控等级。本实施例获得的用户的监控等级更精确也更迅速。

【技术实现步骤摘要】
实时流式文本分级监控方法和装置
本专利技术实施例涉及社交网络
,尤其涉及一种实时流式文本分级监控方法和装置。
技术介绍
近年来,伴随着信息技术的蓬勃发展,互联网的使用大范围迅速普及,大量不同领域、不同地域、不同时域的信息在产生伊始便经由互联网广泛传播,这一方面有利于人们及时了解实时信息,把握新鲜资讯;但大量冗余、重复乃至错误的“暗信息”不仅会增加广大用户浏览有效信息的难度,甚至会误导用户对信息或事态产生错误的理解或判断。以新浪微博、腾讯微博为代表的一系列实时用户在线分享交流社区自出现以来很快便被广大互联网用户接受并使用,其原因主要包含以下几点:注册方便,仅通过邮箱或电话号码即可快速拥有账户;自由便捷,用户可以根据自身需要及心情变化随时随地分享自己的想法或状态;实时快速,用户能够通过消息推送、主动搜索、订阅关注等多种方式及时获取想要的多种信息;用户广泛,用户不仅能够获取自身亲友圈的信息与状态,还能与喜欢的明星发生互动;增强社交,可以方便陌生人相互熟悉,创建新的社交模式。微博等新颖的社交模式拥有众多出众的优点,因此产品受众范围十分广泛,自推出时起便快速积攒大量活跃用户。快速发展的社交网络及用户群一方面有利于用户的交流、信息的传播,但也更加剧了文首说明情况的发生,此类微博信息的发布很少或根本未经过人工审核,这就导致很多包含过激情绪或不当言论微博大量的出现在社交网络中,造成一系列连锁反应;且微博未实名用户也同样可以自由的发表博客,这就会使得信息的产生十分随意,极易被不法分子或水军利用,传播垃圾或反动言论,迷惑群众。上述情况的出现对社会危害十分巨大,由于微博类流式短文本所涉及的用户遍布社会各个阶层,且微博类应用用户基数达到亿级,快速传播的信息将会携带文本中的信息与情绪通过社交网络爆发式扩散,造成难以挽回的影响。因此及时在海量信息中发现此类文本并实施预警,进行舆情管控是一项十分必要的工作。
技术实现思路
本专利技术实施例提供一种实时流式文本分级监控方法和装置,用于使得用户的监控等级更精确。第一方面,本专利技术实施例提供一种实时流式文本分级监控方法,包括:实时获取流式的短文本;对所述短文本进行数据清洗、数据补齐和数据过滤处理,生成结构化数据;对所述结构化数据进行文本分词处理,获得K个词;所述K为大于0的整数;根据敏感词数据库,对所述K个词进行敏感分析,获得所述短文本的敏感值;根据情感词数据库,对所述K个词进行情感分析,获得所述短文本的情感值;根据所述敏感值与所述情感值,获得所述短文本所属的用户的监控等级。第二方面,本专利技术实施例提供一种实时流式文本分级监控装置,包括:第一获取模块,用于实时获取流式的短文本;生成模块,用于对所述短文本进行数据清洗、数据补齐和数据过滤处理,生成结构化数据;分词模块,用于对所述结构化数据进行文本分词处理,获得K个词;所述K为大于0的整数;敏感分析模块,用于根据敏感词数据库,对所述K个词进行敏感分析,获得所述短文本的敏感值;情感分析模块,用于根据情感词数据库,对所述K个词进行情感分析,获得所述短文本的情感值;第二获取模块,用于根据所述敏感值与所述情感值,获得所述短文本所属的用户的监控等级。综上所述,本专利技术实施例获得的用户的监控等级更精确也更迅速,因此可以快速精确地锁定监控等级高的用户。例如可以应用于社交网络中的言论监控,以实施预警措施,从而避免了社交网络被不法分子或水军利用,传播垃圾或反动言论,迷惑群众,而造成难以挽回的影响。例如可以应用于广告精准投放中,根据广告商的需求,投放给监控等级高的用户。例如可以应用于用户推荐系统中,以推荐监控等级高的用户。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例一提供的实时流式文本分级监控方法的流程图;图2为本专利技术实施例一提供的实时流式文本分级监控装置的结构示意图;图3为本专利技术实施例二提供的实时流式文本分级监控装置的结构示意图;图4为本专利技术实施例三提供的实时流式文本分级监控装置的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例一提供的实时流式文本分级监控方法的流程图,如图1所示,本实施例的方法可以包括:S101、实时获取流式的短文本。本实施例中,该流式短文本可以是微博中用户发布的短文本,或者朋友圈中用户发布的短文本,本实施例并不限于此。当用户发布该短文本时,本实施例可以实时获取到该短文本,需要说明的是,本实施例不仅获取该用户发布的短文本,还实时获取其它各用户发布的短文本。下面以一个用户为对像进行解释说明,其它用户也类似,此处不再赘述。S102、对所述短文本进行数据清洗、数据补齐和数据过滤处理,生成结构化数据。本实施例中,在获取短文本后,对该短文本进行数据清洗、数据补充和数据过滤处理,可以将无意义短文本、纯表情文本等无价值数据进行剔除,节省计算性能,然后生成结构化数据。以短文本中微博中的信息为例,生成的结构化数据至少包括如下信息:微博ID、发布时间、用户ID、文本内容。S103、对所述结构化数据进行文本分词处理,获得K个词;所述K为大于0的整数。本实施例中,对生成的结构化数据进行文本分词处理,获得K个词,例如采用NLPIR方式,K为大于或等于1的整数。例如短文本为:川普赢得美国大选。分词处理后可以获得4个词,分别为:川普、赢得、美国、大选。S104、根据敏感词数据库,对所述K个词进行敏感分析,获得所述短文本的敏感值。本实施例中,根据敏感词数据库,对上述K个词进行敏感分析,获得该短文本的敏感值。可选地,所述敏感词数据库包括以下至少一种:网络统计的敏感词、预设的敏感词。网络统计的敏感词例如可以是微博中统计获得的敏感词,预设的敏感词可以是客户根据实际需要设定的词。S105、根据情感词数据库,对所述K个词进行情感分析,获得所述短文本的情感值。本实施例中,根据敏感词数据库,对上述K个词进行敏感分析,获得该短文本的情感值,例如情感值为-1,表示为负情感或负面情绪。例如情感值为0,表示为中性情感。例如情感值为1,表示为正情感或正面情绪。可选地,所述情感词数据库包括以下至少一种:网络统计的情感词、预设的情感词。网络统计的情感词例如可以是微博中统计获得的情感词,预设的情感词可以是客户根据实际需要设定的词。S106、根据所述敏感值与所述情感值,获得所述短文本所属的用户的监控等级。本实施例中,在获取短文本的敏感值和短文本的情感值后,根据该短文本的敏感值和短文本的情感值,获得该短文本所属的用户的监控等级。综上所述,本实施例获得的用户的监控等级更精确也更迅速,困此可以快速精确地锁定监控等级高的用户。例如可以应用于社交网络中的言论监控,以实施预警措施,从而避免了本文档来自技高网
...
实时流式文本分级监控方法和装置

【技术保护点】
一种实时流式文本分级监控方法,其特征在于,包括:实时获取流式的短文本;对所述短文本进行数据清洗、数据补齐和数据过滤处理,生成结构化数据;对所述结构化数据进行文本分词处理,获得K个词;所述K为大于0的整数;根据敏感词数据库,对所述K个词进行敏感分析,获得所述短文本的敏感值;根据情感词数据库,对所述K个词进行情感分析,获得所述短文本的情感值;根据所述敏感值与所述情感值,获得所述短文本所属的用户的监控等级。

【技术特征摘要】
1.一种实时流式文本分级监控方法,其特征在于,包括:实时获取流式的短文本;对所述短文本进行数据清洗、数据补齐和数据过滤处理,生成结构化数据;对所述结构化数据进行文本分词处理,获得K个词;所述K为大于0的整数;根据敏感词数据库,对所述K个词进行敏感分析,获得所述短文本的敏感值;根据情感词数据库,对所述K个词进行情感分析,获得所述短文本的情感值;根据所述敏感值与所述情感值,获得所述短文本所属的用户的监控等级。2.根据权利要求1所述的方法,其特征在于,所述根据所述敏感值与所述情感值,获得所述短文本对应的用户的监控等级,包括:根据所述敏感值和所述情感值,获得所述用户的初始监控等级;根据所述用户的历史短文本,获得所述用户的历史监控等级;根据所述用户的初始监控等级和所述历史监控等级,获得所述用户的监控等级。3.根据权利要求2所述的方法,其特征在于,所述根据所述用户的历史短文本,获得所述用户的历史监控等级之前,还包括:确定所述用户的初始监控等级大于第一预设监控等级。4.根据权利要求1所述的方法,其特征在于,还包括:标注所述K个词的词性;根据所述K个词的词性,对所述K个词进行语义分析;所述根据敏感词数据库,对所述K个词进行敏感分析,获得所述短文本的敏感值,包括:根据敏感词数据库,对语义分析后的所述K个词进行敏感分析,获得所述短文本的敏感值;所述根据情感词数据库,对所述K个词进行情感分析,获得所述短文本的情感值,包括:根据情感词数据库,对语义分析后的所述K个词进行情感分析,获得所述短文本的情感值。5.根据权利要求1所述的方法,其特征在于,所述敏感词数据库包括以下至少一种:网络统计的敏感词、预设的敏感词;所述情感词数据库包括以下至少一种:网络统计的情感词、预设的情感词。6.根据权利要求5所述的方法,其特征在于,还包括:当所述用户的监控等级大于第二...

【专利技术属性】
技术研发人员:张日崇李晨兰天李建欣彭浩
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1