一种基于字典树的文本模板提取方法技术

技术编号:21914018 阅读:29 留言:0更新日期:2019-08-21 12:26
本发明专利技术公开了一种基于字典树的文本模板提取方法,包括:从文本签名下的文件中获取文本;对文本进行分词处理和统计,获得词序列;基于文件中的文本数量和词序列的词数,确定每个文件的关键词列表;基于关键词列表对分词序列进行过滤,以获得每个文本的关键词序列;基于每个文本的关键词序列构建字典树,所述字典树中的节点值为模板频数;将字典树的节点压入堆节点,获得模板词序列;基于模板频数、模板词序列中的词数以及子节点的模板频数占父节点的模板频数的比例,提取文本模板;重复迭代执行上述步骤,直到满足预定条件时迭代结束,将提取的文本模板存入数据库。

A Text Template Extraction Method Based on Dictionary Tree

【技术实现步骤摘要】
一种基于字典树的文本模板提取方法
本专利技术涉及自然语言处理
,尤其涉及一种基于字典树的文本模板提取方法、文本模板提取方法、计算设备及存储介质。
技术介绍
文本挖掘是近年来伴随着数据库的大量建立和互联网的应用而发展起来的一门技术。如何从海量的文本中提取需要的有价值的信息尤为重要。文本挖掘主要应用于短信、聊天记录、微博、购物评论等领域。以短信为例,通信运营商、广告营销商、银行或个人均会通过短信的形式进行信息传输,短信的种类也有很多,例如验证码短信、业务通知短信、广告推送短信等。在用户接收的短信中,除了一些普通商业短信外,中奖、诈骗、传销等短信屡见不鲜,这不但影响正常短信的收发,也对用户造成干扰。因此短信分类具有重要的意义。现有技术中通常采用文本与数据库匹配的方法对文本进行分类,但是由于数据库数据庞大,将文本与所有的文本模板进行匹配,无法满足对文本分类实时性的要求。因此,需要一种文本模板提取方法,来提高文本模板提取的效率和准确度。
技术实现思路
为此,本专利技术提供了一种基于字典树的文本模板提取方法,以力图解决或者至少缓解上面存在的至少一个问题。根据本专利技术的一个方面,提供了一种基于字典树的文本模板提取方法,该方法适于在计算设备中执行,该方法包括:首先,从文本签名下的文件中获取文本。接着,对所述文本进行分词处理和统计,获得词序列。然后,基于文件中的文本数量和词序列的词数,确定每个文件的关键词列表。就可以基于关键词列表对词序列进行过滤,以获得每个文本的关键词序列。随后,基于文件中每个文本的关键词序列构建字典树,字典树中的节点值为模板频数。并将字典树的节点压入堆节点,获得模板词序列。最后,基于模板频数、模板词序列中的词数以及子节点的模板频数占父节点的模板频数的比例,提取文本模板。重复迭代执行获得词序列、确定关键词列表、获得关键词序列、构建字典树、获得模板词序列、提取文本模板的步骤,直到满足预定条件时迭代结束,将提取的文本模板存入数据库。可选地,在上述方法中,预定条件包括不存在未提取文本模板的文本、提取的文本模板不再变化、迭代次数超过预定次数。可选地,在上述方法中,将文本签名加入预先定义的词典中;将文本与所述词典进行匹配,得到词序列;以及统计文件中文本数量和词序列中的词数。可选地,在上述方法中,将关键词列表中的词与词序列中的词进行匹配,将匹配成功的词作为关键词序列中的词。可选地,在上述方法中,字典树包括根节点和至少一个子节点,每个子节点对应一个关键词,从根节点到任意一个子节点的路径上的所有关键词为一个模板。可选地,在上述方法中,子节点保存匹配到该子节点的文本编号集合、文本编号集合的大小,模板频数为文本编号集合的大小。可选地,在上述方法中,当某条文本的关键词序列中的词与子节点对应的词相匹配时,将该文本的文本编号加入文本编号集合中,并更新文本编号集合的大小;否则,在该子节点下增加新的子节点,新的子节点保存未匹配的文本编号。可选地,在上述方法中,当子节点的模板频数占父节点的模板频数的比例小于预定比例,则将该子节点删除;比较各个子节点的模板频数和模板词序列中的词数,确定构成文本模板的词序列。根据本专利技术另一个方面,提供了一种文本模板提取方法,该方法适于在计算设备中执行。该方法包括:提取文本的文本签名;从数据库中获取所述文本签名下已提取的文本模板;对文本和文本模板进行分词处理,得到文本词序列和文本模板词序列;将文本词序列与文本模板词序列进行匹配,如果匹配成功则输出与文本匹配的文本模板;如果未匹配成功则调用上述基于字典树的文本模板提取方法对未匹配的文本提取文本模板。可选地,在上述方法中,基于正则表达式,提取位于文本前端或后端的文本签名。可选地,在上述方法中,去除文本模板中的占位符后对文本模板进行分词处理。可选地,在上述方法中,基于文本词序列与文本模板词序列之间的交集大小以及编辑距离,判断文本与文本模板之间的相似度,以得到匹配结果。根据本专利技术另一个方面,提供了一种计算设备,包括一个或多个处理器;存储器;一个或多个程序,这一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序用于执行上述方法的指令。根据本专利技术另一个方面,提供一种存储一个或多个程序的计算机可读存储介质,这一个或多个程序包括指令,当指令被计算设备执行时,使得计算设备执行如上所述的方法。本方案首先将文本与已提取的文本模板进行匹配,如果匹配成功则输出文本对应的文本模板,如果未匹配成功,则对未匹配的文本构建字典树,提取其文本模板,并将提取的文本模板加入数据库中,以便后续模板匹配。本方案能够提高文本模板提取的准确性和效率。附图说明为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。图1示出了根据本专利技术的一个实施例的计算设备100的构造示意图;图2示出了根据本专利技术的一个实施例的文本模板提取方法200的示意性流程图;图3示出了根据本专利技术的一个实施例的基于字典树的文本模板提取方法300的示意性流程图;图4示出了根据本专利技术的一个实施例的构建字典树的示意图;图5示出了根据本专利技术的一个实施例的构建字典树的示意图;图6示出了根据本专利技术的一个实施例的遍历堆的示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。图1示出了根据本专利技术的一个实施例的计算设备100的构造示意图。在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个程序122以及程序数据124。在一些实施方式中,程序122可以布置为在操作系统上利用程序数据124进行操作。计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器1本文档来自技高网...

【技术保护点】
1.一种基于字典树的文本模板提取方法,适于在计算设备中执行,所述方法包括:从文本签名下的文件中获取文本;对所述文本进行分词处理和统计,获得词序列;基于文件中的文本数量和词序列的词数,确定每个文件的关键词列表;基于关键词列表对词序列进行过滤,以获得每个文本的关键词序列;基于文件中每个文本的关键词序列构建字典树,所述字典树中的节点值为模板频数;将字典树的节点压入堆节点,获得模板词序列;基于模板频数、模板词序列中的词数以及子节点的模板频数占父节点的模板频数的比例,提取文本模板;以及重复迭代执行获得词序列、确定关键词列表、获得关键词序列、构建字典树、获得模板词序列、提取文本模板的步骤,直到满足预定条件时迭代结束,将提取的文本模板存入数据库。

【技术特征摘要】
1.一种基于字典树的文本模板提取方法,适于在计算设备中执行,所述方法包括:从文本签名下的文件中获取文本;对所述文本进行分词处理和统计,获得词序列;基于文件中的文本数量和词序列的词数,确定每个文件的关键词列表;基于关键词列表对词序列进行过滤,以获得每个文本的关键词序列;基于文件中每个文本的关键词序列构建字典树,所述字典树中的节点值为模板频数;将字典树的节点压入堆节点,获得模板词序列;基于模板频数、模板词序列中的词数以及子节点的模板频数占父节点的模板频数的比例,提取文本模板;以及重复迭代执行获得词序列、确定关键词列表、获得关键词序列、构建字典树、获得模板词序列、提取文本模板的步骤,直到满足预定条件时迭代结束,将提取的文本模板存入数据库。2.如权利要求1所述的方法,其中,所述预定条件包括不存在未提取文本模板的文本、提取的文本模板不再变化、迭代次数超过预定次数。3.如权利要求1所述的方法,其中,所述对文件中的文本进行分词处理和统计的步骤包括:将文本签名加入预先定义的词典中;将文本与所述词典进行匹配,得到词序列;以及统计文件中文本数量和词序列中的词数。4.如权利要求1所述的方法,其中,所述基于关键词列表对分词序列进行过滤,以获得每个文本的关键词序列的步骤包括:将关键词列表中的词与词序列中的词进行匹配,将匹配成功的词作为关键词序列中的词。5.如权利要求1所述的方法,其中,所述字典树包括根节点和至少一个子节点,每个子...

【专利技术属性】
技术研发人员:王树大张兆明安丽娜
申请(专利权)人:北京鸿联九五信息产业有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1