基于结构化数据集合的标注方法和装置制造方法及图纸

技术编号:5192767 阅读:320 留言:0更新日期:2012-04-11 18:40
提供了一种基于结构化数据集合的标注方法和标注装置,该标注方法包括:基于事件的结构化数据集合,建立所述结构化数据集合中各个节点的分类模型;获取公众针对所述事件的观点;以及利用所生成的分类模型,将所述观点标注到所述结构化数据集合的相应节点。本公开的标注方法和装置能够向用户提供针对每个事件具有良好排列、突出重点的公众观点,并且能够表现出公众观点随着时间的进展。

【技术实现步骤摘要】

本公开涉及基于结构化数据集合的标注方法及其装置。
技术介绍
当前,用户通过互联网来分享他们在包括政治、金融、社会生活、教育、娱乐等各个 方面的思想、观点和经历,由此,用户在互联网上在线产生的海量数据正以惊人的速度不断 增长。无论何时,只要有关事件的新闻报道一出现,不管是官方报道还是声明,人们通常都 会关注公众对该事件的观点的每一个细节,以及这些公众观点随着时间的发展。对观点挖掘技术的研究已经进行了几十年,这种技术从诸如博客、wikis、和论坛 等的用户生成的内容中提取有关观点的句子。通过这种技术,可以收集关于任何新闻事件 的很多用户的观点和意见。但是,通过这种技术收集到的都是一些没有规则、简单罗列出来的有关公众观点 的句子,使用起来不够方便。
技术实现思路
本公开提出了一种跟踪标注方法和跟踪标注装置,能够将互联网或者其它非网络 媒体上出现的公众观点标注到依据对特定事件的报道而形成的事件树的相应节点上。根据本公开的一个方面,提供了一种基于结构化数据集合的跟踪标注方法,包括 基于事件的结构化数据集合,建立该结构化数据集合中各个节点的分类模型;获取公众针 对该事件的观点;以及利用所生成的分类模型,将该观点标注到该结构化数据集合的相应 节点。根据本公开的另一个方面,还提供了一种基于结构化数据集合的跟踪标注装置, 包括模型生成单元,基于事件的结构化数据集合,建立该结构化数据集合中各个节点的分 类模型;和观点标注单元,获取公众针对该事件的观点,并利用所生成的分类模型,将该观 点标注到该结构化数据集合的相应节点。根据本公开的跟踪标注方法和跟踪标注装置能够向用户提供针对每个事件具有 良好排列、突出重点的公众观点,并且能够表现出公众观点随着时间的进展。附图说明从下面结合附图对本公开的实施例的详细描述中,本公开的这些和/或其它方面 和优点将变得更加清楚并更容易理解,其中图1是示出建立的结构化数据集合的视图。图2是示出建立的包含时间因素的结构化数据集合的视图。图3是示出建立的官方报道的事件树和搜索到的公众观点数据的图示。图4是根据本公开将公众观点数据对应标注到事件树的相应节点的跟踪标注装 置的一个实施例的结构图。图5是根据本公开将公众观点数据对应标注到事件树的相应节点的跟踪标注装 置的另一个实施例的结构图。图6是根据本公开一个实施例的跟踪标注方法的流程图。图7是根据本公开另一个实施例的跟踪标注方法的流程图。图8是根据本公开再一个实施例的跟踪标注方法的流程图。具体实施例方式下面将结合附图详细描述本公开的具体实施例。如果考虑到对某些相关现有技术 的详细描述可能会混淆本公开的要点,则不会在这里提供其详细描述。在各个实施例中,相 同的附图标记用于表示执行相同功能的元件或单元。互联网的用户通过在例如计算机、便携式电脑、移动电话、PDA(个人数字助理)等 各种电子设备的屏幕上显示不同的网页来浏览互联网的内容。网页中含有各种内容,例如, 网页中可以显示诸如凤凰网、和讯网、新浪网等网络媒体对“甲型Hmi流感”的官方报道。 在所显示的官方报道中,包括关于“甲型Hmi流感”这个主题的各个副标题,以及在各个副 标题下,可以包含以文字、图片、视频、音频等各种形式出现的多种报道消息。另外,在诸如报纸、杂志等平面媒体上,仍然可以出现上述形式的各种新闻事件的 报道。根据本公开的一个方面,可以针对上述各个媒体所报道的事件,建立结构化数据皇A朱口 ο图1是示出建立的结构化数据集合的视图。在图1中,建立的结构化数据集合表现为树型结构的事件树。可以将事件树看作 是数据集合。该事件树中的各个节点代表所报道的同一事件的不同方面。例如,该事件树 的根节点(一级节点)是“甲型Hmi流感”,根节点选择的关键词是“甲型”、“mm”、“流感” 等。该事件树的中间节点(二级节点)是例如“焦点新闻”、“中国疫情”、“全球疫情”、“视频 报道”、“应对措施”、“防疫指南”、“网友记录”、“媒体评论”等。在每个二级节点之下,再分 出若干个更下一级的节点(这里例如是三级节点),以包括该事件的具有更多细节的消息。 最末端的节点可以称为叶节点,根节点和叶节点之间的各级节点可以称为中间节点。图2是示出建立的包含时间因素的结构化数据集合的视图。在图2中,横轴表示时间,纵轴表示事件分类。从根节点“甲型Hmi流感”中分支 出若干个二级节点,这些二级节点中的每个包括若干个三级节点。这些三级节点是以时间 顺序排列的,例如,在二级节点“视频报道”(见图1)中,按照时间顺序又包含了三级节点 “卫生部内地确诊24例甲型流感病例”、“北京再确诊两例甲型流感病例”、“甲型流感病例 主要分布在珠三角城市”、以及“北京新增19例甲型流感病例”等。针对网络媒体对特定事件发布的官方报道建立事件树的方法可以是例如,利用 关键词分析网络媒体的新闻网站报道特定事件的新闻网页,由此来获得官方报道的事件 树。更具体地,从根节点到叶节点建立事件树的过程可以按照从粗糙到细致的过程进行,根 节点包括最概略的关键词,以便搜索到与特定事件有关的所有相关报道,其使用的关键词 可以从例如报道某一事件的标题、副标题中选取。根据前述实施例,根节点的关键词可以选 取为“甲型”、“H1N1”、“流感”。中间节点和叶节点强调该事件的一个或者几个方面,可以是对特定事件的官方评论等,其中具有更细节的消息,它们使用的关键词与根节点使用的关键词相互区别。例如,根据前述实施例,中间节点和叶节点的关键词中不再使用上述用于根 节点的关键词。根据本公开的一个实施例,建立对特定事件的官方报道的事件树的过程可以是例 如首先利用最概略的关键词在相关网页上搜索网络媒体对某一事件的官方报道,包括标 题新闻以及官方评论等,由此建立事件树的根节点,该根节点包括媒体(官方)发布的关于 该事件的最广泛的报道;然后,在搜索到的所有报道消息的范围内,利用反映该事件的一个 或者几个方面的关键词进行搜索,并将搜索到的所有报道消息分为多个类别,以建立中间 各级节点;最后,利用反映该事件的各个细节的关键词,在已经分类的各级报道消息的范围 内进行搜索,以建立各个叶节点。建立事件树的方法不对本公开的范围构成限制,对于来自非网络媒体的数据,比 如报纸、档案中针对某专题的历史报道等,数据集合本身不具有显式可提取的结构特征,需 要采用其他方式来建立结构化的事件树,例如,层次聚类方法。层次聚类方法是利用数据的 时间、文本等特征,自底向上地(从叶节点到根节点)将数据对象组成一棵聚类的树,从而 得到一个树型结构的数据集合。树型结构的数据集合(事件树)也不对本公开的范围构成限制,本公开的结构化 数据集合可以表现为树型结构以外的其它形式,例如数据集合中的各个节点可以是平面网 状结构,也可以是三维网状结构等等。针对各个媒体所报道的各种事件消息,公众可以通过各种平台,例如是博客、论 坛、Wikis等,或者是非网络媒体,来发表公众的观点。根据本公开的一个方面,可以利用在 建立基于事件的结构化数据集合(事件树)时使用的关键词,在相关的网页上进行搜索,或 对非网络媒体的内容进行分析,来获得有关所报道的事件的公众观点数据。获得公众发表 的观点的技术可以是本领域技术人员公知的技术,其不对本公开的范围构成限制。图3本文档来自技高网...

【技术保护点】
一种基于结构化数据集合的标注方法,包括:基于事件的结构化数据集合,建立所述结构化数据集合中各个节点的分类模型;获取公众针对所述事件的观点;以及利用所建立的分类模型,将所述观点标注到所述结构化数据集合的相应节点。

【技术特征摘要】
1.一种基于结构化数据集合的标注方法,包括基于事件的结构化数据集合,建立所述结构化数据集合中各个节点的分类模型;获取公众针对所述事件的观点;以及利用所建立的分类模型,将所述观点标注到所述结构化数据集合的相应节点。2.如权利要求1所述的标注方法,建立所述结构化数据集合中各个节点的分类模型包 括从所述结构化数据集合的当前节点及所述当前节点的下级节点中选取特征信息,根据 所述特征信息生成所述当前节点的分类模型。3.如权利要求1或2所述的标注方法,还包括比较所述观点与结构化数据集合的各个节点的相似度;和将所述观点标注到具有最大相似度的节点。4.如权利要求3所述的标注方法,比较所述观点与所述结构化数据集合的各个节点的 相似度包括提取所述观点的特征信息;以及将所述观点的特征信息输入当前节点的分类模型,并输出分类结果,所述分类结果以 数值方式展示所述观点与所述当前节点的相似度。5.如权利要求2-4中任一项所述的标注方法,所述特征信息包括内容特征、时间特征、 情感特征中的至少一个。6.如权利要求4所述的标注方法,比较所述观点与所述结构化数据集合的各个节点的 相似度还包括如果所述相似度大于预定阈值,则记录所述当前节点,并将所述预定阈值改写为所述 相似度的值;和如果所述当前节点具有下一级节点,则继续比较所述观点与所述当前节点的下一级节 点的相似度。7.如权利要求4所述的标注方法,比较所述观点与所述结构化数据集合的各个节点的 相似度还包括如果所述当前节点的相似度不大于所述预定阈值,或者所述当前节点没有下一级节 点,则将所述观点标注到具有最大相似度的节点。8.如权利要求6所述的标注方法,比较所述观点与所述结构化数据集合的各个节点的 相似度还包括如果所述当前节点具有多个下一级节点,则将这些下一级节点分别与所述观点进行比 较,并将相似度最大的节点设定为新的当前节点。9.如权利...

【专利技术属性】
技术研发人员:马瑞费奔陈健吴贤苏中
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1