一种基于机器学习的文本处理方法技术

技术编号：21952478 阅读：23 留言：0更新日期：2019-08-24 17:43

本发明专利技术公开了一种基于机器学习的文本处理方法，适于在计算设备中执行，包括：对获取的文本提取文本签名；从数据库中获取该文本签名下已提取的文本模板；将文本与文本模板进行匹配，如果匹配成功则输出与文本匹配的文本模板编号；将文本模板编号移入数据库的缓存队列的头部；如果未匹配成功，则将未匹配的文本处理为模型输入数据，以便输入训练后的文本分类模型得到文本分类结果；以及判断缓存队列是否已满，如果已满则删除预定时间内使用次数最少的文本模板编号，将未匹配的文本签名及对应文本分类结果的哈希表插入缓存队列的头部。

A Text Processing Method Based on Machine Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习的文本处理方法
本专利技术涉及自然语言处理
，尤其涉及一种基于机器学习的文本处理方法、计算设备及存储介质。
技术介绍
随着大数据时代的到来，以及机器学习的广泛应用，为自然语言的处理带来了新的突破。在自然语言处理的过程中，由于文本格式不一，需要对文本进行预处理。机器学习就是把原始数据变成机器可以理解的数据，然后再用各种算法进行操作。文本分类任务包括离线批量的文本分类，即业务人员通过界面上传或从数据库中导入的方式建立文本分类任务，由后台程序对文本作分类标记；以及实时的文本分类，即对输入的新的文本进行快速的分析判断。在进行文本分类时，会涉及对文本进行预处理，包括文档切分、文本分词、去停用词、文本特征提取、词频统计、文本向量化等。为了提高文本分类的效率，需要一种文本处理方法，能够对文本实时输出分类结果。
技术实现思路
为此，本专利技术提供了一种基于机器学习的文本处理方法，以力图解决或者至少缓解上面存在的至少一个问题。根据本专利技术的一个方面，提供了一种基于机器学习的文本处理方法，该方法适于在计算设备中执行。该方法包括：首先，对获取的文本提取文本签名。然后，从数据库中获取该文本签名下已提取的文本模板。随后，将文本与文本模板进行匹配，如果匹配成功则输出与所述文本匹配的文本模板编号，并将文本模板编号移入数据库的缓存队列的头部。如果未匹配成功，则将未匹配的文本处理为模型输入数据，以便输入训练后的文本分类模型得到文本分类结果。判断缓存队列是否已满，如果已满则删除预定时间内使用次数最少的文本模板编号，将未匹配的文本签名及对应文本分类结果的哈希表插入缓存队列的...

【技术保护点】
1.一种基于机器学习的文本处理方法，适于在计算设备中执行，所述方法包括：对获取的文本提取文本签名；从数据库中获取所述文本签名下已提取的文本模板；将文本与文本模板进行匹配，如果匹配成功则输出与所述文本匹配的文本模板编号；将所述文本模板编号移入数据库的缓存队列的头部；如果未匹配成功，则将未匹配的文本处理为模型输入数据，以便输入训练后的文本分类模型得到文本分类结果；以及判断缓存队列是否已满，如果已满则删除预定时间内使用次数最少的文本模板编号，将未匹配的文本签名及对应文本分类结果的哈希表插入缓存队列的头部。

【技术特征摘要】
1.一种基于机器学习的文本处理方法，适于在计算设备中执行，所述方法包括：对获取的文本提取文本签名；从数据库中获取所述文本签名下已提取的文本模板；将文本与文本模板进行匹配，如果匹配成功则输出与所述文本匹配的文本模板编号；将所述文本模板编号移入数据库的缓存队列的头部；如果未匹配成功，则将未匹配的文本处理为模型输入数据，以便输入训练后的文本分类模型得到文本分类结果；以及判断缓存队列是否已满，如果已满则删除预定时间内使用次数最少的文本模板编号，将未匹配的文本签名及对应文本分类结果的哈希表插入缓存队列的头部。2.如权利要求1所述的方法，其中，所述对获取的文本提取文本签名的步骤包括：基于预设的正则表达式提取所获取文本的签名。3.如权利要求1所述的方法，其中，在所述将文本和文本模板进行匹配的步骤之前，所述方法包括：获取预设的过滤词正则表达式列表；将文本与过滤词正则表达式列表中的各项进行匹配，如果匹配成功则输出过滤词标识，以便将所述文本过滤。4.如权利要求1所述的方法，其中，所述将文本和文本模板进行匹配的步骤包括：对文本和文本模板进行分词处理，得到文本词序列和文本模板词序列；基于文本词序列与文本模板词序列之间的编辑距离，如果编辑距离小于预定距离则匹配成功，否则匹配失败。5.如权利要求1所述的方法，其中，所述将所述文本模板编号移入数据库的缓存队列的头部的步骤包括：如果所述文本模板编号存在于缓存队列中，则将缓存队列中的该文本模板编号移入头部；否则判断缓存队列是否已满，如果已满则将最近最少使用的文本模板编号删除，并将所述文本模板...

【专利技术属性】
技术研发人员：王树大，张兆明，安丽娜，
申请(专利权)人：北京鸿联九五信息产业有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人