一种从文本语料中提取持续性热点短语的方法、装置及存储介质制造方法及图纸

技术编号:28872604 阅读:20 留言:0更新日期:2021-06-15 23:05
本发明专利技术实施例公开了一种从文本语料中提取持续性热点短语的方法、装置及存储介质;该方法可以包括:将原始文本语料划分为多个与时间区间相对应的文本集合;基于每个文本集合所包含的文本后缀及各文本后缀出现的频率构造每个文本集合对应的频率后缀树;基于查询指令所指示的热点持续时间区间以及最小出现频率阈值遍历所述热点持续时间区间所对应的频率后缀树,查询获得在所述热点持续时间区间内出现频率不低于所述最小出现频率阈值的热点短语。

【技术实现步骤摘要】
一种从文本语料中提取持续性热点短语的方法、装置及存储介质
本专利技术实施例涉及信息挖掘
,尤其涉及一种从文本语料中提取持续性热点短语的方法、装置及存储介质。
技术介绍
随着数据迅速膨胀的背景下,大量的知识库构建任务使得快速从海量文本语料中提取有效信息成为了一个重要研究方向。以短语形式挖掘文本中频繁出现的连续词序列成为用户获取关键信息、进行文本集探索的有效方式之一。目前,在连续时间区间下对频繁词序列挖掘过程中,由于用户对于数据内容无法完全掌握,通常需要多次迭代修改查询条件(即交互式查询)才能够对数据进行全面的了解。然而,相关频繁词序列挖掘方案大多面向挖掘任务,具有较高的时间复杂度,无法用于频繁更换查询条件的探索性查询方案,也无法快速获得查询反馈的需求。
技术实现思路
有鉴于此,本专利技术实施例期望提供一种从文本语料中提取持续性热点短语的方法、装置及存储介质;能够降低查询持续性热点短语的时间复杂度,快速寻找在连续时间区间下均作为热点存在的短语信息,满足探索性交互式查询的需求。本专利技术实施例的技术方案是这样实现的:第一方面,本专利技术实施例提供了一种从文本语料中提取持续性热点短语的方法,所述方法包括:将原始文本语料划分为多个与时间区间相对应的文本集合;基于每个文本集合所包含的文本后缀及各文本后缀出现的频率构造每个文本集合对应的频率后缀树;基于查询指令所指示的热点持续时间区间以及最小出现频率阈值遍历所述热点持续时间区间所对应的频率后缀树,查询获得在所述热点持续时间区间内出现频率不低于所述最小出现频率阈值的热点短语。第二方面,本专利技术实施例提供了一种从文本语料中提取持续性热点短语的装置,所述装置包括:划分部分、构造部分和查询部分;其中,所述划分部分,经配置为将原始文本语料划分为多个与时间区间相对应的文本集合;所述构造部分,经配置为基于每个文本集合所包含的文本后缀及各文本后缀出现的频率构造每个文本集合对应的频率后缀树;所述查询部分,经配置为基于查询指令所指示的热点持续时间区间以及最小出现频率阈值遍历所述热点持续时间区间所对应的频率后缀树,查询获得在所述热点持续时间区间内出现频率不低于所述最小出现频率阈值的热点短语。第三方面,本专利技术实施例提供了一种计算设备,所述计算设备包括:通信接口,存储器和处理器;其中,所述通信接口,用于在与其他外部网元之间进行收发信息过程中,信号的接收和发送;所述存储器,用于存储能够在所述处理器上运行的计算机程序;所述处理器,用于在运行所述计算机程序时,执行第一方面所述从文本语料中提取持续性热点短语的方法的步骤。第四方面,本专利技术实施例提供了一种计算机存储介质,所述计算机可读介质存储有从文本语料中提取持续性热点短语的程序,所述从文本语料中提取持续性热点短语的程序被至少一个处理器执行时实现第一方面所述的从文本语料中提取持续性热点短语的方法的步骤。本专利技术实施例提供了一种从文本语料中提取持续性热点短语的方法、装置及存储介质;针对将原始文本语料按照时间区间划分所得到的多个文本集合,通过构造频率后缀树的方式避免在查询过程中进行文本频率统计,从而降低了查询持续性热点短于的时间复杂度,提高查询效率。附图说明图1为本专利技术实施例提供的一种从文本语料中提取持续性热点短语的方法流程示意图;图2为本专利技术实施例提供的一种频率后缀树的示意图;图3为本专利技术实施例提供的实验手段一的结果对比示意图;图4为本专利技术实施例提供的实验手段二的结果对比示意图;图5为本专利技术实施例提供的一种从文本语料中提取持续性热点短语的装置组成示意图;图6为本专利技术实施例提供的另一种从文本语料中提取持续性热点短语的装置组成示意图;图7为本专利技术实施例提供的一种计算设备的具体硬件结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。首先,对本专利技术实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。短语:是由文本集合中依次出现的且由单词组成的连续词序列。举例来说,根据由有限个单词a组成的词典Σ,文本集合可表示为d={a1,a2,…,an}。短语可表示为s(x,y)={ax,ax+1,…,ay},其中,1≤x<y≤n。热点短语:是指在一段时间内高频出现的短语,并且该短语能够对其所在的文本所期望表达的内容进行体现。在本专利技术实施例中,优选地通过设置最小出现频率阈值对短语热度进行衡量,在查询中将出现频率高于该最小出现频率阈值的连续词序列视为热点短语。热点持续时间:是指一段连续的时间区间,其可以由多个最小单位时间区间组成。在本专利技术实施例中,设定T(x,y)={tx,tx+1,…,ty},1≤x≤y≤m来表示热点持续时间区间,其中,t可以用来标识最小单位时间区间,ti为数据集的第i个时间区间。此外,还设定T(1,m)表示包含所有数据集的完整时间段,其中,m表示完整时间段所包含的全部最小单位时间区间的个数;可以理解地,T(x,y)为T(1,m)的子集。基于上述相关概念的定义和解释阐述,参见图1,其示出了本专利技术实施例提供的一种从文本语料中提取持续性热点短语的方法,该方法可以包括:S11:将原始文本语料划分为多个与时间区间相对应的文本集合;S12:基于每个文本集合所包含的文本后缀及各文本后缀出现的频率构造每个文本集合对应的频率后缀树;S13:基于查询指令所指示的热点持续时间区间以及最小出现频率阈值遍历所述热点持续时间区间所对应的频率后缀树,查询获得在所述热点持续时间区间内出现频率不低于所述最小出现频率阈值的热点短语。通过图1所示的技术方案,针对将原始文本语料按照时间区间划分所得到的多个文本集合,通过构造频率后缀树的方式避免在查询过程中进行文本频率统计,从而降低了查询持续性热点短于的时间复杂度,提高查询效率。对于图1所示的技术方案,步骤S11至S12可以在获取到原始文本语料之后,通过离线实施以进行频率后缀树的构建与存储;步骤S13则可以通过在线实施已完成持续性热点短语的查询。在一些可能的实现方式中,所述将原始文本语料划分为多个与时间区间相对应的文本集合,包括:将形成所述原始文本语料的时间段按照时间顺序以及设定的最小单位时间区间划分获得多个顺序的时间区间;根据所述原始文本语料中的文本出现时间以及所述时间区间,将所述原始文本语料中的文本存储于各时间区间对应的文本集合。对于上述实现方式,举例来说,原始文本语料中的文本内容出现时间段设定为T(1,n),基于设定的最小单位时间区间可以将时间段按照时间顺序划分获得n个时间区间,分别为T(1,n)={t1,t2,…,tn};根据以上划分所得到的时间区间,可以将原始文本语料的文本内容对应存储于各时间区间ti,从而获得各时间区间对应的文本集合Di,其中,1≤i≤n。在一些示例中,对于各时间区本文档来自技高网...

【技术保护点】
1.一种从文本语料中提取持续性热点短语的方法,其特征在于,所述方法包括:/n将原始文本语料划分为多个与时间区间相对应的文本集合;/n基于每个文本集合所包含的文本后缀及各文本后缀出现的频率构造每个文本集合对应的频率后缀树;/n基于查询指令所指示的热点持续时间区间以及最小出现频率阈值遍历所述热点持续时间区间所对应的频率后缀树,查询获得在所述热点持续时间区间内出现频率不低于所述最小出现频率阈值的热点短语。/n

【技术特征摘要】
1.一种从文本语料中提取持续性热点短语的方法,其特征在于,所述方法包括:
将原始文本语料划分为多个与时间区间相对应的文本集合;
基于每个文本集合所包含的文本后缀及各文本后缀出现的频率构造每个文本集合对应的频率后缀树;
基于查询指令所指示的热点持续时间区间以及最小出现频率阈值遍历所述热点持续时间区间所对应的频率后缀树,查询获得在所述热点持续时间区间内出现频率不低于所述最小出现频率阈值的热点短语。


2.根据权利要求1所述的方法,其特征在于,所述将原始文本语料划分为多个与时间区间相对应的文本集合,包括:
将形成所述原始文本语料的时间段按照时间顺序以及设定的最小单位时间区间划分获得多个顺序的时间区间;
根据所述原始文本语料中的文本出现时间以及所述时间区间,将所述原始文本语料中的文本存储于各时间区间对应的文本集合。


3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
针对每个文本集合,去除所述文本集合内文本数据中的设定符号与停用词,并在所述停用词与标点位置进行切分,获得多条纯文本数据串,以形成预处理后的文本集合;其中,每条纯文本数据串由多个顺序的单词组成。


4.根据权利要求3所述的方法,其特征在于,所述基于每个文本集合所包含的文本后缀及各文本后缀出现的频率构造每个文本集合对应的频率后缀树,包括:
针对每个文本集合,将每个纯文本数据串的结尾添加终止标记;
创建每个文本集合的初始频率树;其中,所述初始频率树只包括根节点,所述根节点的频率和子节点的指针均为空;
针对每个文本集合,采用乌科宁Ukkonen算法将每个纯文本数据串的文本后缀插入至所述初始频率树,获得每个文本集合对应的后缀树;
对所述后缀树进行深度递归遍历,当遍历到叶子节点时,将所述叶子节点的频率值置1,并且将所述后缀树中除叶子节点以外的每个其他节点的频率值确定为所述每个其他节点的直接孩子节点的频率值之和,以获得每个文本集合对应的频率后缀树。


5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
针对每个文本集合对应的频率后缀树,从根节点进行广度遍历,并将每个节点对应的节点标识、孩子节点数量、频率值以及与父节点连接边记录的文本数据串进行输出,以形成每个频率后缀树的序列化文件。


6.根据权利要求5所述的方法,其特征在于,所述基于查询指令所指示的热点持续时间区间以及最小出现频率阈值遍历所述热点持续时间区间所对应的频率后缀树,查询获得在所述热点持续时间区间内出现频率不低于所述最小出现频率阈值的热点短语,包括:

【专利技术属性】
技术研发人员:叶东孙兆伟李晖赵翰墨高祥博王璐
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1