异常信息确定装置和方法以及电子设备制造方法及图纸

技术编号:11364360 阅读:95 留言:0更新日期:2015-04-29 14:43
本公开提供一种异常信息确定装置和方法以及电子设备。该异常信息确定装置包括:搜索单元,用于在预定信息源中搜索与特定关键词相关的信息;异常信息候选确定单元,用于根据异常信息的传播规律,确定搜索单元搜索到的信息中的异常信息候选;以及异常信息确定单元,用于基于异常信息候选构建异常信息分类器,并使用异常信息分类器在异常信息候选中确定异常信息。根据本公开的异常信息确定装置和方法以及电子设备能够更准确、可靠地确定诸如网络的信息源中的异常信息。

【技术实现步骤摘要】
异常信息确定装置和方法以及电子设备
本公开涉及文本信息处理领域,更具体地涉及一种异常信息确定装置、异常信息确定方法以及电子设备。
技术介绍
随着网络的普及,用户越来越多地利用网络获取资讯。热门新闻的线上评论、以及热门专业论坛都是发言非常活跃的地方;用户对于消费的商品、热门事件等等的评价也会在网上发表,这些言论影响了后来者对于商品或者事情走向的判断。由于背后的巨大商业利益,以操控舆论谋取商业利益的水军就诞生了,他们会集体的发帖,讨论,制造热门事件,从而迷惑普通用户,导致舆论走向朝他们希望的方向走。如果不加以甄别例如水军信息的异常信息,将不能区别何为真假的网络民意,从而不能更好地进行舆情监控。因此,当前亟需一种能够准确、可靠地识别异常信息的异常信息确定装置以及异常信息确定方法。
技术实现思路
在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。应当理解,这个概述并不是关于本公开的穷举性概述。它并不意图确定本公开的关键或重要部分,也不意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。鉴于现有技术的上述缺陷,本公开的目的之一是提供一种异常信息获确定装置、方法和电子设备,以至少克服现有技术中的上述问题。根据本公开的一个方面,提供了一种异常信息确定装置,包括:搜索单元,用于在预定信息源中搜索与特定关键词相关的信息;异常信息候选确定单元,用于根据异常信息的传播规律,确定搜索单元搜索到的信息中的异常信息候选;以及异常信息确定单元,用于基于异常信息候选构建异常信息分类器,并使用异常信息分类器在异常信息候选中确定异常信息。根据本公开的又一个方面,还提供一种异常信息确定方法,包括:搜索步骤,用于在预定信息源中搜索与特定关键词相关的信息;异常信息候选确定步骤,用于根据异常信息的传播规律,确定搜索步骤搜索到的信息中的异常信息候选;以及异常信息确定步骤,用于基于异常信息候选构建异常信息分类器,并使用该异常信息分类器在异常信息候选中确定异常信息。根据本公开的另一个方面,还提供了一种电子设备,该电子设备包括如上所述的异常信息确定装置。依据本公开的其它方面,还提供了一种使得计算机用作如上所述的异常信息确定装置的程序。依据本公开的又一方面,还提供了相应的计算机可读存储介质,该计算机可读存储介质上存储有能够由计算设备执行的计算机程序,该计算机程序在执行时能够使计算设备执行上述异常信息确定方法。上述根据本公开实施例的异常信息确定装置和方法以及电子设备,至少能够获得以下益处之一:能够更准确、可靠地确定诸如网络等的信息源中的异常信息,有利于提高甄别异常用户的准确率,并且能够大大提高异常信息监控的效率。通过以下结合附图对本公开的最佳实施例的详细说明,本公开的这些以及其他优点将更加明显。附图说明本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:图1是示意性地示出根据本公开实施例的异常信息确定装置的一种示例结构的框图。图2是示意性地示出图1中的异常信息候选确定单元的一种可能的示例结构的框图。图3是示意性地示出图2中的异常帖子候选确定子单元的一种可能的示例结构的框图。图4是示意性地示出图1中的异常信息确定单元的一种可能的示例结构的框图。图5是示意性示出根据本公开实施例的异常信息确定方法的流程图。图6示意性示出根据本公开实施例的异常信息确定方法的异常信息候选确定步骤的一种示例性处理。图7是示出了可用来实现根据本公开实施例的异常信息确定装置和方法的一种可能的信息处理设备的硬件配置的结构简图。本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以便有助于提高对本公开实施例的理解。具体实施方式在下文中将结合附图对本公开的示例性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的装置结构和/或处理步骤,而省略了与本公开关系不大的其他细节。图1是示意性地示出根据本公开实施例的异常信息确定装置的一种示例结构的框图。根据本公开实施例的异常信息确定装置1包括:搜索单元10,用于在预定信息源中搜索与特定关键词相关的信息;异常信息候选确定单元20,用于根据异常信息的传播规律,确定搜索单元搜索到的信息中的异常信息候选;以及异常信息确定单元30,用于基于异常信息候选构建异常信息分类器,并使用异常信息分类器在异常信息候选中确定异常信息。搜索单元10可以在例如网络的预定信息源中搜索与特定关键词相关的信息。预定信息源例如可以是各个网站中的一个或更多个门户或者专业论坛等。根据本公开的实施例,特定关键词可以由用户指定,例如用户可以指定某个或者某些论坛中重复出现的事件的例如名称等作为特定关键词。例如,用户可以指定“A公司B公司”作为特定关键词。根据特定关键词,搜索单元10可以例如使用门户或者专业的论坛搜索引擎搜索与特定关键词相关的信息。在例如门户或者专业论坛的预定信息源中搜索的与特定关键词相关的信息例如是诸如水军等异常用户发布的帖子。例如,在以“A公司B公司”作为特定关键词的上述示例中,根据该关键词在诸如网址为“http://www.qihoo.com”的专业论坛中搜索与该关键词相关的信息,结果可以得到以“A公司B公司竞购C公司?”、“【翻译求助】B公司A公司网盘容量大战传到外国去了求翻译”、以及“A公司B公司金山,回家看看用户吧”为标题的多个与特定关键词“A公司B公司”相关的帖子。专利技术人发现网络中的异常信息、尤其是水军发布的帖子通常具有一定的传播规律。因此,根据本公开的实施例,针对搜索单元10搜索到的与特定关键词相关的信息,异常信息候选确定单元20可以利用异常信息的传播规律来确定搜索单元搜索到的信息中潜在的异常信息作为异常信息候选。本领域技术人员可以理解,异常信息候选确定单元20确定异常信息候选的方式可以由本领域技术人员根据实际需要来设定。例如,可以将异常信息候选确定单元设置为将满足异常信息的传播规律的信息作为异常信息候选,也可以将异常信息候选确定单元设置为根据异常信息的传播规律,排除正常信息,而将其余信息确定为异常信息候选。图2是示意性地示出图1中的异常信息候选确定单元的一种可能的示例结构的框图。如图所示,异常信息候选确定单元20被配置为:针对水军在各个论坛发布的企图操控社会舆论的异常帖子的情况,根据异常帖子的传播规律,确定搜索单元1本文档来自技高网...
异常信息确定装置和方法以及电子设备

【技术保护点】
一种异常信息确定装置,包括:搜索单元,用于在预定信息源中搜索与特定关键词相关的信息;异常信息候选确定单元,用于根据异常信息的传播规律,确定所述搜索单元搜索到的信息中的异常信息候选;以及异常信息确定单元,用于基于所述异常信息候选构建异常信息分类器,并使用所述异常信息分类器在所述异常信息候选中确定异常信息。

【技术特征摘要】
1.一种异常信息确定装置,包括:搜索单元,用于在预定信息源中搜索与特定关键词相关的信息;异常信息候选确定单元,用于根据异常信息的传播规律,确定所述搜索单元搜索到的信息中的异常信息候选;以及异常信息确定单元,用于基于所述异常信息候选构建异常信息分类器,并使用所述异常信息分类器在所述异常信息候选中确定异常信息;其中所述搜索单元被配置为在网络中搜索与特定关键词相关的帖子;其中所述异常信息候选确定单元用于根据异常帖子的传播规律,确定所述搜索单元搜索到的帖子中的异常帖子候选,所述异常信息候选确定单元包括:标题查询子单元,用于针对搜索单元搜索到的每个帖子,查询在预定时间段内、以该帖子的标题为标题的所有帖子,并确定该所有帖子的帖子数量是否大于第一阈值;回帖提取子单元,用于在所述标题查询子单元确定所述帖子数量大于第一阈值的情况下,确定该所有帖子中主帖的作者,并提取每个作者的回帖;以及异常帖子候选确定子单元,用于基于所述每个作者的主帖与回帖之间的关系,确定作为所述异常信息候选的异常帖子候选;其中所述异常帖子候选确定子单元包括:主帖回帖比计算模块,用于针对每个作者,计算该作者的主帖与回帖之间的主帖回帖比,并且确定所述主帖回帖比是否大于等于第二阈值;回帖相似度确定模块,用于在所述主帖回帖比计算模块确定所述主帖回帖比小于第二阈值的情况下,确定该作者的回帖之间的回帖相似度;以及异常帖子候选确定模块,用于在所述主帖回帖比计算模块确定所述主帖回帖比大于等于所述第二阈值的情况下,将该作者在所述搜索单元搜索到的帖子中的所有主帖确定为异常帖子候选,并且在所述主帖回帖比小于所述第二阈值的情况下,基于所述回帖相似度来确定所述异常帖子候选。2.根据权利要求1所述的异常信息确定装置,其中所述异常帖子候选确定模块被配置为在所述主帖回帖比小于所述第二阈值、但该作者的回帖之间的回帖相似度大于第三阈值且其回帖相似度大于第三阈值的回帖数量大于第四阈值的情况下,将该作者在所述搜索单元搜索到的帖子中的所有主帖确定为异常帖子候选。3.根据权利要求1或2所述的异常信息确定装置,其中所述异常信息确定单元包括:特征提取子单元,用于将所述异常帖子候选的作者...

【专利技术属性】
技术研发人员:张波孟遥孙俊
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1