微博负面信息识别方法及装置制造方法及图纸

技术编号:39063249 阅读:11 留言:0更新日期:2023-10-12 19:55
本发明专利技术公开了微博负面信息识别方法及装置,涉及到信息识别方法技术领域,包括S1、识别微博信息中出现的负面关键词;S2、分析负面关键词的语义环境;S3、确定微博信息中出现的负面关键词及次数;S4、根据所述负面关键词及其次数确定负面评分;S5、若所述待识别微博信息评分达到预设阈值,将所述待识别微博信息判断为负面信息。该微博负面信息识别方法及装置,可以确定出所述待识别微博信息的负面评分,若所述待识别微博信息的负面评分大于或等于预设阈值,将所述待识别微博信息判断为负面信息,从而实现了通过负面关键词匹配的方式自动识别微博信息是否为负面信息,避免了人为因素的影响,提高了识别效率和稳定性。提高了识别效率和稳定性。提高了识别效率和稳定性。

【技术实现步骤摘要】
微博负面信息识别方法及装置


[0001]本专利技术涉及信息识别方法
,特别涉及微博负面信息识别方法及装置。

技术介绍

[0002]微博是指一种基于用户关系信息分享、传播以及获取的通过关注机制分享简短实时信息的广播式的社交媒体、网络平台,微博允许用户通过Web、Wap、Mail、App、IM、SMS以及用户可以通过PC、手机等多种移动终端接入,以文字、图片、视频等多媒体形式,实现信息的即时分享、传播互动。
[0003]随着社会科技的发展,微博成为信息传递的一种重要载体,具有实时发布、传播速度快、影响面广、渠道多等特点,通过微博往往能够在第一时间获得信息,但微博信息可能是正面的也可能是负面的,因此如何进行负面信息识别成为亟需解决的问题。然而,微博新闻的数量非常巨大,很难通过简单的规则去准确判定微博信息的正负面,现有技术中,通常通过一些关键词匹配或者简单机器学习的方法来判别负面新闻,但是该方案的准确率较低,并且人工维护成本高。
[0004]因此,专利技术微博负面信息识别方法及装置来解决上述问题很有必要。

技术实现思路

[0005]本专利技术的目的在于提供微博负面信息识别方法及装置,以解决上述
技术介绍
中提出的问题。
[0006]为实现上述目的,本专利技术提供如下技术方案:微博负面信息识别方法,所述方法包括以下步骤:
[0007]S1、识别微博信息中出现的负面关键词;
[0008]S2、分析负面关键词的语义环境;
[0009]S3、确定微博信息中出现的负面关键词及次数;
[0010]S4、根据所述负面关键词及其次数确定负面评分;
[0011]S5、若所述待识别微博信息评分达到预设阈值,将所述待识别微博信息判断为负面信息。
[0012]优选的,针对所述负面关键词中任意一个目标关键词,根据所述负面关键词以及出现次的数确定所述待识别微博信息的负面评分,包括:
[0013]根据所述目标关键词的负面权重分和所述目标关键词的出现次数确定所述目标关键词对所述待识别微博信息的子负面评分;
[0014]根据每个负面关键词的子负面评分计算所述待识别微博信息的负面评分。
[0015]优选的,所述目标关键词的负面权重分根据如下方式确定:
[0016]根据所述目标关键词与第一样本集进行匹配,所述第一样本集包括已识别的多个负面信息和多个微博非负面信息;
[0017]根据所述第一样本集中出现了所述目标关键词的负面信息的后验条件概率,以及
所述第一样本集中负面信息的先验概率确定所述目标关键词的负面权重分。
[0018]优选的,所述预设阈值根据如下方式确定:
[0019]获取第二样本集,所述第二样本集包括已识别的多个负面信息和多个微博非负面信息,以及所述多个负面信息和多个微博非负面信息的负面评分;
[0020]根据标注模型,采用不同的识别阈值对第二样本集中的微博信息进行负面信息的识别;
[0021]若目标识别阈值下的识别结果与所述第二样本集的实际结果间的符合度满足预设条件,将目标识别阈值作为所述预设阈值。
[0022]优选的,在所述确定待识别微博信息中出现的负面关键词和每个负面关键词的出现次数之前,所述方法还包括:
[0023]获取包括多个待定微博信息的微博信息集合;
[0024]根据所述多个待定微博信息的标题对所述微博信息集合进行微博信息过滤;
[0025]将过滤后的任意一个待定微博信息作为所述待识别微博信息。
[0026]优选的,针对所述负面关键词中任意一个目标关键词,所述确定待识别微博信息中出现的负面关键词和每个负面关键词的出现次数,包括:
[0027]根据所述目标关键词在所述待识别微博信息中匹配到文本位置,确定包括所述目标关键词的上下文信息;
[0028]识别所述上下文信息的语义表达倾向;
[0029]若所述语义表达倾向为正向,确定在所述文本位置未匹配到所述目标关键词。
[0030]本专利技术还公开了微博负面信息识别装置,包括所述的微博负面信息识别方法,还包括包括确定单元、计算单元和判断单元。
[0031]优选的,所述确定单元,用于确定待识别微博信息中出现的负面关键词和每个负面关键词的出现次数。
[0032]优选的,所述计算单元,用于根据所述负面关键词和所述每个负面关键词的出现次数确定所述待识别微博信息的负面评分。
[0033]优选的,所述判断单元,用于若所述待识别微博信息的负面评分大于或等于预设阈值,将所述待识别微博信息判断为负面信息。
[0034]本专利技术的技术效果和优点:
[0035]通过处理设备确定待识别微博信息中出现的负面关键词及其次数,可以确定出所述待识别微博信息的负面评分,若所述待识别微博信息的负面评分大于或等于预设阈值,将所述待识别微博信息判断为负面信息。从而实现了通过负面关键词匹配的方式自动识别微博信息是否为负面信息,避免了人为因素的影响,提高了识别效率和稳定性。
附图说明
[0036]图1为本专利技术微博负面信息识别方法流程图。
具体实施方式
[0037]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚;完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于
本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0038]本专利技术提供了如图1所示的负面信息识别方法,
[0039]S1、识别微博信息中出现的负面关键词;
[0040]负面关键词可以是根据识别需求预先设置的,针对不同领域的微博信息可以有不同的负面关键词。
[0041]S2、分析负面关键词的语义环境;
[0042]查找关键词前后的否定词并进行语义分析,微博信息中匹配到负面关键词所在的上下文信息的语义表达倾向有可能并不是负向的。
[0043]S3、确定微博信息中出现的负面关键词及次数;
[0044]处理设备可以根据预置的负面关键词与待识别微博信息进行匹配,以确定待识别微博信息中出现了多少个负面关键词,以及每个负面关键词出现的次数。
[0045]为了提高负面关键词的匹配精度,以负面关键词中任意一个作为目标关键词,通过目标关键词举例说明如何解决上述问题。
[0046]在一种可选的实现方式中,包括:
[0047]根据所述目标关键词在所述待识别微博信息中匹配到文本位置,确定包括所述目标关键词的上下文信息。
[0048]识别所述上下文信息的语义表达倾向。
[0049]若所述语义表达倾向为正向,确定在所述文本位置未匹配到所述目标关键词。
[0050]判断语义表达倾向是否为正向的方式可以有多种,本申请实施例提供了一种可选的方式,即通过负面关键词在上下文信息中的词组结构确定,例如“没有【负面词汇】、停止【负面词汇】、不存在【本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.微博负面信息识别方法,其特征在于,所述方法包括以下步骤:S1、识别微博信息中出现的负面关键词;S2、分析负面关键词的语义环境;S3、确定微博信息中出现的负面关键词及次数;S4、根据所述负面关键词及其次数确定负面评分;S5、若所述待识别微博信息评分达到预设阈值,将所述待识别微博信息判断为负面信息。2.根据权利要求1所述的微博负面信息识别方法,其特征在于,针对所述负面关键词中任意一个目标关键词,根据所述负面关键词以及出现次的数确定所述待识别微博信息的负面评分,包括:根据所述目标关键词的负面权重分和所述目标关键词的出现次数确定所述目标关键词对所述待识别微博信息的子负面评分;根据每个负面关键词的子负面评分计算所述待识别微博信息的负面评分。3.根据权利要求2所述的微博负面信息识别方法,其特征在于,所述目标关键词的负面权重分根据如下方式确定:根据所述目标关键词与第一样本集进行匹配,所述第一样本集包括已识别的多个负面信息和多个微博非负面信息;根据所述第一样本集中出现了所述目标关键词的负面信息的后验条件概率,以及所述第一样本集中负面信息的先验概率确定所述目标关键词的负面权重分。4.根据权利要求1所述的微博负面信息识别方法,其特征在于,所述预设阈值根据如下方式确定:获取第二样本集,所述第二样本集包括已识别的多个负面信息和多个微博非负面信息,以及所述多个负面信息和多个微博非负面信息的负面评分;根据标注模型,采用不同的识别阈值对第二样本集中的微博信息进行负面信息的识别;若目标识别阈值下的识别结果与所述第二样本集的实际结果间的符合度满足预设条件,将目标识别阈值作为所述预...

【专利技术属性】
技术研发人员:桂婷梁泽赵杨
申请(专利权)人:国家计算机网络与信息安全管理中心河北分中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1