一种基于字典树的文本模板提取方法技术

技术编号：21914018 阅读：29 留言：0更新日期：2019-08-21 12:26

本发明专利技术公开了一种基于字典树的文本模板提取方法，包括：从文本签名下的文件中获取文本；对文本进行分词处理和统计，获得词序列；基于文件中的文本数量和词序列的词数，确定每个文件的关键词列表；基于关键词列表对分词序列进行过滤，以获得每个文本的关键词序列；基于每个文本的关键词序列构建字典树，所述字典树中的节点值为模板频数；将字典树的节点压入堆节点，获得模板词序列；基于模板频数、模板词序列中的词数以及子节点的模板频数占父节点的模板频数的比例，提取文本模板；重复迭代执行上述步骤，直到满足预定条件时迭代结束，将提取的文本模板存入数据库。

A Text Template Extraction Method Based on Dictionary Tree

全部详细技术资料下载

【技术实现步骤摘要】
一种基于字典树的文本模板提取方法
本专利技术涉及自然语言处理
，尤其涉及一种基于字典树的文本模板提取方法、文本模板提取方法、计算设备及存储介质。
技术介绍
文本挖掘是近年来伴随着数据库的大量建立和互联网的应用而发展起来的一门技术。如何从海量的文本中提取需要的有价值的信息尤为重要。文本挖掘主要应用于短信、聊天记录、微博、购物评论等领域。以短信为例，通信运营商、广告营销商、银行或个人均会通过短信的形式进行信息传输，短信的种类也有很多，例如验证码短信、业务通知短信、广告推送短信等。在用户接收的短信中，除了一些普通商业短信外，中奖、诈骗、传销等短信屡见不鲜，这不但影响正常短信的收发，也对用户造成干扰。因此短信分类具有重要的意义。现有技术中通常采用文本与数据库匹配的方法对文本进行分类，但是由于数据库数据庞大，将文本与所有的文本模板进行匹配，无法满足对文本分类实时性的要求。因此，需要一种文本模板提取方法，来提高文本模板提取的效率和准确度。
技术实现思路
为此，本专利技术提供了一种基于字典树的文本模板提取方法，以力图解决或者至少缓解上面存在的至少一个问题。根据本专利技术的一个方面，提供了一种基于字典树的文本模板提取方法，该方法适于在计算设备中执行，该方法包括：首先，从文本签名下的文件中获取文本。接着，对所述文本进行分词处理和统计，获得词序列。然后，基于文件中的文本数量和词序列的词数，确定每个文件的关键词列表。就可以基于关键词列表对词序列进行过滤，以获得每个文本的关键词序列。随后，基于文件中每个文本的关键词序列构建字典树，字典树中的节点值为模板频数。并将字典树的节点压入...

【技术保护点】
1.一种基于字典树的文本模板提取方法，适于在计算设备中执行，所述方法包括：从文本签名下的文件中获取文本；对所述文本进行分词处理和统计，获得词序列；基于文件中的文本数量和词序列的词数，确定每个文件的关键词列表；基于关键词列表对词序列进行过滤，以获得每个文本的关键词序列；基于文件中每个文本的关键词序列构建字典树，所述字典树中的节点值为模板频数；将字典树的节点压入堆节点，获得模板词序列；基于模板频数、模板词序列中的词数以及子节点的模板频数占父节点的模板频数的比例，提取文本模板；以及重复迭代执行获得词序列、确定关键词列表、获得关键词序列、构建字典树、获得模板词序列、提取文本模板的步骤，直到满足预定条件时迭代结束，将提取的文本模板存入数据库。

【技术特征摘要】
1.一种基于字典树的文本模板提取方法，适于在计算设备中执行，所述方法包括：从文本签名下的文件中获取文本；对所述文本进行分词处理和统计，获得词序列；基于文件中的文本数量和词序列的词数，确定每个文件的关键词列表；基于关键词列表对词序列进行过滤，以获得每个文本的关键词序列；基于文件中每个文本的关键词序列构建字典树，所述字典树中的节点值为模板频数；将字典树的节点压入堆节点，获得模板词序列；基于模板频数、模板词序列中的词数以及子节点的模板频数占父节点的模板频数的比例，提取文本模板；以及重复迭代执行获得词序列、确定关键词列表、获得关键词序列、构建字典树、获得模板词序列、提取文本模板的步骤，直到满足预定条件时迭代结束，将提取的文本模板存入数据库。2.如权利要求1所述的方法，其中，所述预定条件包括不存在未提取文本模板的文本、提取的文本模板不再变化、迭代次数超过预定次数。3.如权利要求1所述的方法，其中，所述对文件中的文本进行分词处理和统计的步骤包括：将文本签名加入预先定义的词典中；将文本与所述词典进行匹配，得到词序列；以及统计文件中文本数量和词序列中的词数。4.如权利要求1所述的方法，其中，所述基于关键词列表对分词序列进行过滤，以获得每个文本的关键词序列的步骤包括：将关键词列表中的词与词序列中的词进行匹配，将匹配成功的词作为关键词序列中的词。5.如权利要求1所述的方法，其中，所述字典树包括根节点和至少一个子节点，每个子...

【专利技术属性】
技术研发人员：王树大，张兆明，安丽娜，
申请(专利权)人：北京鸿联九五信息产业有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人