对消息进行过滤处理的方法及装置制造方法及图纸

技术编号:11152905 阅读:52 留言:0更新日期:2015-03-18 09:27
本发明专利技术公开了对消息进行过滤处理的方法及装置,其中,该方法包括:由消息训练样本构建出特征词数据模型;从待处理消息中提取特征词;采用特征词训练模型确定出特征词对应的低质量概率,对待处理消息的所有特征词对应的低质量概率进行联合计算,得到联合概率,作为待处理消息的低质量概率;判断待处理消息的低质量概率是否大于第一设定阈值,如果是,则将待处理消息滤除掉。本发明专利技术方案能够提高对消息进行过滤处理的准确率。

【技术实现步骤摘要】
对消息进行过滤处理的方法及装置
本专利技术涉及信息处理技术,尤其涉及对消息进行过滤处理的方法及装置。
技术介绍
在消息发布领域,常涉及对消息进行过滤处理,以确定发布的是否为低质量消息,如果为低质量消息,则滤除掉该消息,进而筛选出高质量的消息。 进行消息滤除的应用场景很多,下面具体以在微博平台发布消息为例,进行说明。微博平台是一个比较开放的消息分享与交流平台,同时微博开放平台提供了较多的应用程序编程接口(API,Applicat1n Programming Interface),通过API将微博平台的功能开放给第三方应用。目前使用微博开放平台的API应用多达2000家,在众多应用中,各个应用发布的消息质量参差不齐。很多应用在微博平台发布的消息质量很低,带来很大的干扰;为此需要一套低质量过滤方案,以自动识别出低质量消息,帮助筛选高质量的消息,优化消息发布。 目前对消息进行过滤处理的方法主要有以下两种,下面进行详细说明。 方法一、 根据消息来源判断消息是低质量消息还是高质量消息。该方法存在以下缺陷:分析消息的发表来源比较困难,较难实现对消息的质量的判别,导致筛选的准确率较低。 针对开放平台的某一应用,根据消息来源对该应用发布的所有消息进行过滤,如果判断出发布的消息中80%为低质量消息,可以封杀该应用的分享能力;但这种方式只能封杀发布大量低质量内容的应用,对于发布少量低质量内容的应用无法进行封杀。 方法二、 首先进行分析,提取低质量特征词;然后进行判断,如果消息中包含这些特征词,则判定为低质量消息的概率很高,将其确定为低质量消息。例如,低质量特征词为“淘宝”、“分享”、“测试”等特征词,如果消息中包含这些低质量特征词,则判定该消息为低质量消息,对其进行滤除。 方法二存在以下缺陷:在消息中发现低质量特征词就将其确定为低质量的消息,错误判别的概率很高,导致筛选的准确率较低;为了提高准确率,可对结果进一步进行人工筛选,但这样做需要大量的人工介入,工作量很大,一般很少采用。 综上,现有对消息进行过滤处理的方案存在筛选准确率较低的缺陷。
技术实现思路
本专利技术提供了一种对消息进行过滤处理的方法,该方法能够提高筛选的准确率。 本专利技术提供了一种对消息进行过滤处理的装置,该装置能够提高筛选的准确率。 一种对消息进行过滤处理的方法,该方法包括: 由消息训练样本构建出特征词数据模型,特征词数据模型包含特征词与特征词所在消息的低质量概率之间的映射关系; 从待处理消息中提取特征词; 采用特征词训练模型确定出特征词对应的低质量概率,对待处理消息的所有特征词对应的低质量概率进行联合计算,得到联合概率,作为待处理消息的低质量概率; 判断待处理消息的低质量概率是否大于第一设定阈值,如果是,则将待处理消息滤除掉。 一种对消息进行过滤处理的装置,该装置包括模型训练单元、特征词提取单元、联合概率计算单元和过滤判断单元; 所述模型训练单元,由消息训练样本构建出特征词数据模型,特征词数据模型包含特征词与特征词所在消息的低质量概率之间的映射关系; 所述特征词提取单元,从待处理消息中提取特征词,发送给所述联合概率计算单元; 所述联合概率计算单元,采用特征词训练模型确定出特征词对应的低质量概率,对待处理消息的所有特征词对应的低质量概率进行联合计算,得到联合概率,作为待处理消息的低质量概率,发送给所述过滤判断单元; 所述过滤判断单元,判断待处理消息的低质量概率是否大于第一设定阈值,如果是,则将待处理消息滤除掉。 从上述方案可以看出,本专利技术中,由消息训练样本构建出特征词数据模型,结合构建出的特征词数据模块,分别计算出待处理消息中各特征词对应的低质量概率,对计算出的所有低质量概率进行联合计算,得到联合概率,作为待处理消息的低质量概率。本专利技术方案并不简单地依据消息来源判断待处理消息为低质量消息还是高质量消息,也不简单根据消息是否包含低质量特征词来确定该消息是低质量消息还是高质量消息,从而,提高了消息筛选的准确率,简化了操作。 【附图说明】 图1为本专利技术对消息进行过滤处理的方法示意性流程图; 图2为本专利技术对消息进行过滤处理的方法流程图实例; 图3为本专利技术进行消息推送的方法流程图实例; 图4为本专利技术对消息进行过滤处理的装置结构示意图。 【具体实施方式】 为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本专利技术进一步详细说明。 本专利技术中,分别计算出待处理消息中各特征词对应的低质量概率,对计算出的所有低质量概率进行联合计算,得到联合概率,作为待处理消息的低质量概率;而不简单地依据消息来源判断待处理消息为低质量消息还是高质量消息,也不简单地依据消息是否包含低质量特征词来确定该消息为低质量消息还是高质量消息,进而,提高了计算待处理消息为低质量概率的准确性。参见图1,为本专利技术对消息进行过滤处理的方法示意性流程图,其包括以下步骤: 步骤101,由消息训练样本构建出特征词数据模型,特征词数据模型包含特征词与特征词所在消息的低质量概率之间的映射关系。 特征词数据模型用于确定某特征词对应的低质量概率。 消息训练样本中包含较多消息,并且已知各条消息是高质量消息还是低质量消息。确定某条消息是高质量还是低质量可采用现有技术中准确率较高的判断方式实现,如采用
技术介绍
部分方法二提及的人为介入方式;也就是,先根据某条消息是否包含低质量特征词来确定该消息为低质量消息还是高质量消息,然后进一步用人工筛选方式,以提高其准确率。由于消息训练样本中的消息有限,且首次构建出特征词数据模型,后续进行消息过滤时都可直接使用,无需每次进行消息过滤再重新进行构建,人为介入的工作量较少。 特征词数据模型包含了特征词与特征词所在消息的低质量概率之间的映射关系,基于消息训练样本构建出特征词数据模型的方法有多种,下面进行举例说明。构建方法包括:从消息训练样本中选取一组低质量消息和高质量消息,对选取的低质量消息和高质量消息进行训练,构建出特征词数据模型。对选取的低质量消息和高质量消息进行训练的方法具体如:对选取的消息进行划分,得到分词;然后对分词逐个进行统计,得到其低质量概率。假设对分词A进行统计,方法包括:对分词A所在消息为低质量消息的条数进行统计,用统计值除以提取的消息总条数,得到的相除值即为低质量概率。 进一步地,还可以对构建出的特征词数据模型进行优化调整,具体包括: 再从消息训练样本中提取另一组低质量消息和高质量消息,采用提取的所述另一组低质量消息和高质量消息计算由特征词数据模型确定低质量消息的准确率; 判断准确率是否低于第二设定阈值,如果是,则对构建的特征词数据模型进行调整;否则,将构建出的特征词数据模型用于后续计算。 上述确定准确率可具体采用下述方法实现:从消息训练样本中获取所述另一组低质量消息和高质量消息的低质量概率,将所述另一组低质量消息和高质量消息采用特征词数据模型计算出各消息的低质量概率,将其与从消息训练样本中获取的低质量概率进行比较,以确定计算结果是否准确;然后对确定为准确的计算结果进行统计,以得到准确率如果准确率低于第二设定阈值,如90%,则对特征词数据模型进行调整,本文档来自技高网
...
对消息进行过滤处理的方法及装置

【技术保护点】
一种对消息进行过滤处理的方法,其特征在于,该方法包括:由消息训练样本构建出特征词数据模型,特征词数据模型包含特征词与特征词所在消息的低质量概率之间的映射关系;从待处理消息中提取特征词;采用特征词训练模型确定出特征词对应的低质量概率,对待处理消息的所有特征词对应的低质量概率进行联合计算,得到联合概率,作为待处理消息的低质量概率;判断待处理消息的低质量概率是否大于第一设定阈值,如果是,则将待处理消息滤除掉。

【技术特征摘要】
1.一种对消息进行过滤处理的方法,其特征在于,该方法包括: 由消息训练样本构建出特征词数据模型,特征词数据模型包含特征词与特征词所在消息的低质量概率之间的映射关系; 从待处理消息中提取特征词; 采用特征词训练模型确定出特征词对应的低质量概率,对待处理消息的所有特征词对应的低质量概率进行联合计算,得到联合概率,作为待处理消息的低质量概率; 判断待处理消息的低质量概率是否大于第一设定阈值,如果是,则将待处理消息滤除掉。2.如权利要求1所述的方法,其特征在于,所述由消息训练样本构建出特征词数据模型包括: 从消息训练样本中选取一组低质量消息和高质量消息; 由选取的低质量消息和高质量消息,构建出特征词数据模型; 再从消息训练样本中提取另一组低质量消息和高质量消息,采用提取的所述另一组低质量消息和高质量消息计算由特征词数据模型确定低质量消息的准确率; 判断准确率是否低于第二设定阈值,如果是,则对构建的特征词数据模型进行调整;否贝U,将构建出的特征词数据模型用于后续计算。3.如权利要求1所述的方法,其特征在于,所述从待处理消息中提取特征词包括: 对待处理消息进行降噪处理,得到降噪处理后消息; 对降噪处理后消息进行划分,得到分词; 计算出各分词在降噪处理后消息中的权重,对权重进行排序,从最大的权重开始提取出设定个数的分词,作为待处理消息的特征词。4.如权利要求3所述的方法,其特征在于,所述计算出各分词在降噪处理后消息中的权重包括: 将需要计算的分词称为待处理分词,计算出待处理分词在降噪处理后消息中出现的概率TF =TF=(待处理分词在降噪处理后消息中出现的个数)/(降噪处理后消息中出现的分词总个数); 计算出待处理分词在消息训练样本中出现的概率IDF:IDF=log(消息训练样本的消息总条数/(包含待处理分词的消息条数+1)); 由TF和IDF计算出待处理分词在降噪处理后消息中的权重TF-1DF:TF-1DF=TF*IDF。5.如权利要求1至4中任一项所述的方法,其特征在于,如果判断出待处理消息的低质量概率不大于第一设定阈值,则将待处理消息推送给请求方。6.如权利要求5所述的方法,其特征在于,所述从待处理消息中提取特征词之前,该方法还包括: 接收请求方输入的订阅条件; 判断待处理消息是否满足订阅条件,如果满足,则执行所述从待处理消息中提取特征词的步骤。7.如权利要求6所述的方法,其特征在于,接收请求方输入的订阅条件之后,该方法还包括: 判断是否进行了消息更新,如果是,则将更新消息作为待处理消息,执行所述判断待处理消息是否满足订阅条件的步骤。8.一种对消息进行过滤处理的装置,其特征在于,该装置包括模型训练单元、特征词提取单元、联合概率计算单元和过滤判断单元; 所述模型训练单元,由消息训练样本构建出特征词数据模型,特征词数据模型包含特征词与特征词所在消息的低质量概率之间的映射关系; 所述特征词提取单元,从待处理消息中提取特征词,发送给所述联合概率计算单元; ...

【专利技术属性】
技术研发人员:贾铸斌袁昌文
申请(专利权)人:腾讯科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1