【技术实现步骤摘要】
一种从文本语料中提取持续性热点短语的方法、装置及存储介质
本专利技术实施例涉及信息挖掘
,尤其涉及一种从文本语料中提取持续性热点短语的方法、装置及存储介质。
技术介绍
随着数据迅速膨胀的背景下,大量的知识库构建任务使得快速从海量文本语料中提取有效信息成为了一个重要研究方向。以短语形式挖掘文本中频繁出现的连续词序列成为用户获取关键信息、进行文本集探索的有效方式之一。目前,在连续时间区间下对频繁词序列挖掘过程中,由于用户对于数据内容无法完全掌握,通常需要多次迭代修改查询条件(即交互式查询)才能够对数据进行全面的了解。然而,相关频繁词序列挖掘方案大多面向挖掘任务,具有较高的时间复杂度,无法用于频繁更换查询条件的探索性查询方案,也无法快速获得查询反馈的需求。
技术实现思路
有鉴于此,本专利技术实施例期望提供一种从文本语料中提取持续性热点短语的方法、装置及存储介质;能够降低查询持续性热点短语的时间复杂度,快速寻找在连续时间区间下均作为热点存在的短语信息,满足探索性交互式查询的需求。本专利技术实施例的技术方案是这样实现的:第一方面,本专利技术实施例提供了一种从文本语料中提取持续性热点短语的方法,所述方法包括:将原始文本语料划分为多个与时间区间相对应的文本集合;基于每个文本集合所包含的文本后缀及各文本后缀出现的频率构造每个文本集合对应的频率后缀树;基于查询指令所指示的热点持续时间区间以及最小出现频率阈值遍历所述热点持续时间区间所对应的频率后缀树,查询 ...
【技术保护点】
1.一种从文本语料中提取持续性热点短语的方法,其特征在于,所述方法包括:/n将原始文本语料划分为多个与时间区间相对应的文本集合;/n基于每个文本集合所包含的文本后缀及各文本后缀出现的频率构造每个文本集合对应的频率后缀树;/n基于查询指令所指示的热点持续时间区间以及最小出现频率阈值遍历所述热点持续时间区间所对应的频率后缀树,查询获得在所述热点持续时间区间内出现频率不低于所述最小出现频率阈值的热点短语。/n
【技术特征摘要】 【专利技术属性】
1.一种从文本语料中提取持续性热点短语的方法,其特征在于,所述方法包括:
将原始文本语料划分为多个与时间区间相对应的文本集合;
基于每个文本集合所包含的文本后缀及各文本后缀出现的频率构造每个文本集合对应的频率后缀树;
基于查询指令所指示的热点持续时间区间以及最小出现频率阈值遍历所述热点持续时间区间所对应的频率后缀树,查询获得在所述热点持续时间区间内出现频率不低于所述最小出现频率阈值的热点短语。
2.根据权利要求1所述的方法,其特征在于,所述将原始文本语料划分为多个与时间区间相对应的文本集合,包括:
将形成所述原始文本语料的时间段按照时间顺序以及设定的最小单位时间区间划分获得多个顺序的时间区间;
根据所述原始文本语料中的文本出现时间以及所述时间区间,将所述原始文本语料中的文本存储于各时间区间对应的文本集合。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
针对每个文本集合,去除所述文本集合内文本数据中的设定符号与停用词,并在所述停用词与标点位置进行切分,获得多条纯文本数据串,以形成预处理后的文本集合;其中,每条纯文本数据串由多个顺序的单词组成。
4.根据权利要求3所述的方法,其特征在于,所述基于每个文本集合所包含的文本后缀及各文本后缀出现的频率构造每个文本集合对应的频率后缀树,包括:
针对每个文本集合,将每个纯文本数据串的结尾添加终止标记;
创建每个文本集合的初始频率树;其中,所述初始频率树只包括根节点,所述根节点的频率和子节点的指针均为空;
针对每个文本集合,采用乌科宁Ukkonen算法将每个纯文本数据串的文本后缀插入至所述初始频率树,获得每个文本集合对应的后缀树;
对所述后缀树进行深度递归遍历,当遍历到叶子节点时,将所述叶子节点的频率值置1,并且将所述后缀树中除叶子节点以外的每个其他节点的频率值确定为所述每个其他节点的直接孩子节点的频率值之和,以获得每个文本集合对应的频率后缀树。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
针对每个文本集合对应的频率后缀树,从根节点进行广度遍历,并将每个节点对应的节点标识、孩子节点数量、频率值以及与父节点连接边记录的文本数据串进行输出,以形成每个频率后缀树的序列化文件。
6.根据权利要求5所述的方法,其特征在于,所述基于查询指令所指示的热点持续时间区间以及最小出现频率阈值遍历所述热点持续时间区间所对应的频率后缀树,查询获得在所述热点持续时间区间内出现频率不低于所述最小出现频率阈值的热点短语,包括:
技术研发人员:叶东,孙兆伟,李晖,赵翰墨,高祥博,王璐,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:黑龙江;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。