基于双模式的事件语料库自动构建方法、装置及存储介质制造方法及图纸

技术编号:19745153 阅读:16 留言:0更新日期:2018-12-12 04:43
本发明专利技术实施例涉及数据处理领域,公开了一种基于双模式的事件语料库自动构建方法、装置、及存储介质。其中,基于双模式的事件语料库自动构建方法包括:获取用户输入的第一主题事件关键词;根据第一主题事件关键词进行检索获得第一主题事件语料,对第一主题事件语料进行扩展获得第二主题事件语料;根据第二主题事件语料与主题的相关性获得第三主题事件语料,并由第三事件语料构成语料库。通过提供一种基于双模式的事件语料库自动构建方法,不需要专家进行标注与主题事件相关的新闻信息,因此,提高了构建语料的效率并节省了人工成本。并且,能够自动收集到所有相关事件语料,使语料库更加完整,准确度更高。

【技术实现步骤摘要】
基于双模式的事件语料库自动构建方法、装置及存储介质
本专利技术实施例涉及数据处理领域,特别涉及一种基于双模式的事件语料库自动构建方法、装置及存储介质。
技术介绍
近些年,网络技术得到飞速发展,互联网数据由于更新迅速,范围广泛,获取容易等优点已经成为人们获取信息的主要来源。据统计显示,网络数据中的绝大部分都是以文本的形式存储,记录着大量的新闻事件,而这些新闻事件往往围绕着某个主题展开。在大数据时代,从海量数据中筛选出和某个主题相关的所有新闻事件,并构建新闻主题事件语料库,有助于新闻事件的挖掘和分析。专利技术人发现现有技术中至少存在如下问题:现在大多数新闻主题事件语料库在构建时,往往需要专家进行人工标注与主题事件相关的新闻信息,不仅效率低而且成本高。并且对于新闻事件来说,一般一个主题事件会有很多相关的子主题事件,人工标注时很难收集到所有相关事件语料,从而导致语料库不完整,覆盖不全面,并且准确度不高。
技术实现思路
本专利技术实施方式的目的在于提供一种基于双模式的事件语料库自动构建方法、装置及存储介质,能够提高构建语料的效率并节省成本,并使构建的语料库更加完整,准确度更高。为解决上述技术问题,本专利技术的实施方式提供了一种基于双模式的事件语料库自动构建方法,包括:获取用户输入的第一主题事件关键词;根据第一主题事件关键词进行检索获得第一主题事件语料,对第一主题事件语料进行扩展获得第二主题事件语料;根据第二主题事件语料与主题的相关性获得第三主题事件语料,并由第三事件语料构成语料库;其中,所述对第一主题事件语料进行扩展获得第二主题事件语料为扩展模式;根据第二主题事件语料与主题的相关性获得第三主题事件语料为收缩模式。本专利技术的实施方式还提供了一种事件语料库的自动构建装置,包括:第一获取模块、第二获取模块和第三获取模块;第一获取模块,用于获取用户输入的第一主题事件关键词;第二获取模块,用于根据第一主题事件关键词进行检索获得第一主题事件语料,对第一主题事件语料进行扩展获得第二主题事件语料;第三获取模块,用于根据第二主题事件语料与主题的相关性获得第三主题事件语料,并由第三事件语料构成语料库;其中,对第一主题事件语料进行扩展获得第二主题事件语料为扩展模式;根据第二主题事件语料与主题的相关性获得第三主题事件语料为收缩模式。本专利技术的实施方式还提供了一种电子设备,包括至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述实施方式中的基于双模式的事件语料库自动构建方法。本专利技术的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述实施方式中的基于双模式的事件语料库自动构建方法。本专利技术实施方式相对于现有技术而言,能够根据用户输入的第一主题事件关键词,自动进行检索获得第一主题事件语料,并针对第一主题事件语料进行扩展获得第二主题事件语料,因此在不需要人工标注的情况下,能够通过自动检索和扩展的方式使构建的语料库内容更加完整,同时节省了人工标注的成本。另外,针对第二主题事件语料与主题的相关性获得第三主题事件语料,由第三主题事件语料构成语料库,因此最终构建的语料库中是包含与主题内容相关性更高的语料,从而提高了语料库精确度。另外,在对第一主题事件语料进行扩展获得第二主题事件语料之前,基于双模式的事件语料库自动构建方法还包括:对第一主题事件语料进行内容去噪,获得仅包括正文内容的第一主题事件语料。通过对第一主题事件语料进行内容去噪,排除了第一主题事件语料中对于扩展获得第二主题事件语料不相关的信息,提高了后续扩展的速度。另外,对第一主题事件语料进行扩展获得第二主题事件语料,包括:针对仅包括正文内容的第一主题事件语料进行提取获得第二主题事件关键词;根据第二主题事件关键词进行检索,根据检索结果获得第二主题事件语料,其中,第二主题事件关键词包括第一主题事件关键词。通过对仅包括正文内容的第一主题事件语料进行提取获得第二主题事件关键词,并且第二主题事件语料是第二主题事件关键词通过检索获得的。由于第二主题事件关键词包括第一主题事件关键词,因此检索获得的第二主题事件语料的范围要大于第一主题事件语料,使最终建立的语料库更加完整。另外,根据第二主题事件关键词进行检索,根据检索结果获得第二主题事件语料之前,包括:确定第二主题事件关键词的个数大于等于预设阈值。通过用户设定预设阈值,将第二主题事件关键词的个数与用户设定的预设阈值进行对比,当第二主题事件关键词的个数大于等于预设阈值,说明达到了用户对第一主题事件语料进行扩展的要求。另外,根据第二主题事件语料与主题的相关性获得第三主题事件语料,包括:对第二主题事件语料进行向量化处理,获得第二主题事件语料的特征向量;根据与主题的相关性将特征向量进行聚类处理,获得至少一个语料簇;将至少一个语料簇按照大小进行排序,并按照由大到小的顺序选择预设个数的语料簇;根据选择的语料簇获得第三主题事件语料。将获得的第二主题事件语料根据与主题的相关性获得第三主题事件语料,并且第三主题事件语料要小于第二主题事件语料,但与主题的相关度更高,因此提高了所构建的语料库的准确度。另外,获得至少一个语料簇之后,基于双模式的事件语料库自动构建方法还包括:接收用户指令,并删除指令指定的语料簇。通过接收用户指令,采用人工干预的方式,将获得的至少一个语料簇中与主题相关性比较小的语料簇进行删除,进一步提高了所构建的语料库的准确度。附图说明一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。图1是本申请第一实施例中基于双模式的事件语料库自动构建方法的流程图;图2是本申请第二实施例中基于双模式的事件语料库自动构建方法的流程图;图3是本申请第三实施例中基于双模式的事件语料库自动构建装置的方框示意图;图4是本申请第四实施例中基于双模式的事件语料库自动构建装置的方框示意图;图5是本申请第五实施例中的电子设备的结构示例图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本专利技术各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。本专利技术的第一实施方式涉及一种基于双模式的事件语料库自动构建方法。具体流程如图1所示,具体流程如下:步骤101,获取用户输入的第一主题事件关键词。其中,在本实施方式中,对于用户输入的第一主题事件关键词的个数并不做具体限定,即使获取的用户输入的第一主题事件关键词的个数只有一个也可以完成对事件语料库的自动构建。需要说明的是,本实施方式中的第一主题事件关键词可以由用户自行进行确定,根据用户输入的不同类型的第一主题事件关键词,分别相应的自动建立不同类型的语料库。例如用户输入的第一主题事件关键词为“会议A”,则会自动建立与“会议A”相关的语料库。步骤102,根据第一主题事件关键词进行检索获得第一主题事本文档来自技高网...

【技术保护点】
1.一种基于双模式的事件语料库自动构建方法,其特征在于,包括:获取用户输入的第一主题事件关键词;根据所述第一主题事件关键词进行检索获得第一主题事件语料,对所述第一主题事件语料进行扩展获得第二主题事件语料;根据所述第二主题事件语料与主题的相关性获得第三主题事件语料,并由所述第三主题事件语料构成语料库;其中,所述对所述第一主题事件语料进行扩展获得第二主题事件语料为扩展模式;所述根据所述第二主题事件语料与主题的相关性获得第三主题事件语料为收缩模式。

【技术特征摘要】
1.一种基于双模式的事件语料库自动构建方法,其特征在于,包括:获取用户输入的第一主题事件关键词;根据所述第一主题事件关键词进行检索获得第一主题事件语料,对所述第一主题事件语料进行扩展获得第二主题事件语料;根据所述第二主题事件语料与主题的相关性获得第三主题事件语料,并由所述第三主题事件语料构成语料库;其中,所述对所述第一主题事件语料进行扩展获得第二主题事件语料为扩展模式;所述根据所述第二主题事件语料与主题的相关性获得第三主题事件语料为收缩模式。2.根据权利要求1所述的基于双模式的事件语料库自动构建方法,其特征在于,在所述对所述第一主题事件语料进行扩展获得第二主题事件语料之前,所述基于双模式的事件语料库自动构建方法还包括:对所述第一主题事件语料进行内容去噪,获得仅包括正文内容的第一主题事件语料。3.根据权利要求2所述的基于双模式的事件语料库自动构建方法,其特征在于,所述对所述第一主题事件语料进行扩展获得第二主题事件语料,包括:针对所述仅包括正文内容的第一主题事件语料进行提取获得第二主题事件关键词;根据所述第二主题事件关键词进行检索,根据检索结果获得第二主题事件语料,其中,所述第二主题事件关键词包括所述第一主题事件关键词。4.根据权利要求3所述的基于双模式的事件语料库自动构建方法,其特征在于,所述根据所述第二主题事件关键词进行检索,根据检索结果获得第二主题事件语料之前,包括:确定所述第二主题事件关键词的个数大于等于预设阈值。5.根据权利要求1所述的基于双模式的事件语料库自动构建方法,其特征在于,所述根据所述第二主题事件语料与主题的相关性获得第三主题事件语料,包括:对所述第二主题事件语料进行向量化处理,获得所述第二主题事件语料的特征向量;根据与所述主题的相关性将所述特征向量进行聚类处理,获得至少一个语料...

【专利技术属性】
技术研发人员:过弋王志宏
申请(专利权)人:华东理工大学石河子大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1