一种基于机器学习的文本处理方法技术

技术编号:21952478 阅读:23 留言:0更新日期:2019-08-24 17:43
本发明专利技术公开了一种基于机器学习的文本处理方法,适于在计算设备中执行,包括:对获取的文本提取文本签名;从数据库中获取该文本签名下已提取的文本模板;将文本与文本模板进行匹配,如果匹配成功则输出与文本匹配的文本模板编号;将文本模板编号移入数据库的缓存队列的头部;如果未匹配成功,则将未匹配的文本处理为模型输入数据,以便输入训练后的文本分类模型得到文本分类结果;以及判断缓存队列是否已满,如果已满则删除预定时间内使用次数最少的文本模板编号,将未匹配的文本签名及对应文本分类结果的哈希表插入缓存队列的头部。

A Text Processing Method Based on Machine Learning

【技术实现步骤摘要】
一种基于机器学习的文本处理方法
本专利技术涉及自然语言处理
,尤其涉及一种基于机器学习的文本处理方法、计算设备及存储介质。
技术介绍
随着大数据时代的到来,以及机器学习的广泛应用,为自然语言的处理带来了新的突破。在自然语言处理的过程中,由于文本格式不一,需要对文本进行预处理。机器学习就是把原始数据变成机器可以理解的数据,然后再用各种算法进行操作。文本分类任务包括离线批量的文本分类,即业务人员通过界面上传或从数据库中导入的方式建立文本分类任务,由后台程序对文本作分类标记;以及实时的文本分类,即对输入的新的文本进行快速的分析判断。在进行文本分类时,会涉及对文本进行预处理,包括文档切分、文本分词、去停用词、文本特征提取、词频统计、文本向量化等。为了提高文本分类的效率,需要一种文本处理方法,能够对文本实时输出分类结果。
技术实现思路
为此,本专利技术提供了一种基于机器学习的文本处理方法,以力图解决或者至少缓解上面存在的至少一个问题。根据本专利技术的一个方面,提供了一种基于机器学习的文本处理方法,该方法适于在计算设备中执行。该方法包括:首先,对获取的文本提取文本签名。然后,从数据库中获取该文本签名下已提取的文本模板。随后,将文本与文本模板进行匹配,如果匹配成功则输出与所述文本匹配的文本模板编号,并将文本模板编号移入数据库的缓存队列的头部。如果未匹配成功,则将未匹配的文本处理为模型输入数据,以便输入训练后的文本分类模型得到文本分类结果。判断缓存队列是否已满,如果已满则删除预定时间内使用次数最少的文本模板编号,将未匹配的文本签名及对应文本分类结果的哈希表插入缓存队列的头部。可选地,在上述方法中,基于预设的正则表达式提取所获取文本的签名。可选地,在上述方法中,获取预设的过滤词正则表达式列表;将文本与过滤词正则表达式列表中的各项进行匹配,如果匹配成功则输出过滤词标识,以便将文本过滤。可选地,在上述方法中,对文本和文本模板进行分词处理,得到文本词序列和文本模板词序列;计算文本词序列与文本模板词序列之间的编辑距离,如果编辑距离小于预定距离则匹配成功,否则匹配失败。可选地,在上述方法中,如果文本模板编号存在于缓存队列中,则将缓存队列中的该文本模板编号移入头部;否则判断缓存队列是否已满,如果已满则将最近最少使用的文本模板编号删除,将文本模板编号插入缓存队列的头部。可选地,在上述方法中,基于已构建的特征词典对未匹配的文本进行过滤,得到特征词序列;对特征词序列进行编码,得到预定格式的特征向量;将特征向量保存为文本文件或者特征矩阵,输入文本分类模型中进行预测,得到文本分类结果。可选地,在上述方法中,特征向量由标签值、特征编号和特征值构成,所述特征编号对应该特征词在特征词典中的下标,所述特征值为该特征词在未匹配的文本中出现的次数。可选地,在上述方法中,文本分类模型为多分类的决策树模型。可选地,在上述方法中,数据库为redis数据库,缓存队列为双向队列,预先存储预定数量的文本模板编号。可选地,在上述方法中,将缓存队列中的文本模板编号按使用时间戳排序,取出缓存队列尾部的文本模板编号,并删除与其对应的哈希表;将取出的文本模板编号插入缓存队列的头部;以及将未匹配的文本签名及对应的文本分类结果的哈希表插入所述缓存队列的头部。根据本专利技术另一个方面,提供了一种计算设备,包括一个或多个处理器;存储器;一个或多个程序,这一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序用于执行一种基于机器学习的文本处理方法的指令。根据本专利技术另一个方面,提供一种存储一个或多个程序的计算机可读存储介质,这一个或多个程序包括指令,当指令被计算设备执行时,使得计算设备执行基于机器学习的文本处理方法。本方案首先将文本与已提取的文本模板进行匹配,如果匹配成功则基于缓存淘汰方法更新队列,将最久没有被匹配的模板编号淘汰,这样可以提高模板匹配的效率。如果匹配失败则基于文本分类模型获得文本分类结果,并将文本分类结果插入缓存队列的头部,可以进一步提高模板匹配的效率。附图说明为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。图1示出了根据本专利技术的一个实施例的计算设备100的构造示意图;图2示出了根据本专利技术的一个实施例的基于机器学习的文本处理方法200的示意性流程图;图3示出了根据本专利技术的一个实施例的文本标签映射表。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。图1示出了根据本专利技术的一个实施例的计算设备100的构造示意图。在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个程序122以及程序数据124。在一些实施方式中,程序122可以布置为在操作系统上利用程序数据124进行操作。计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如本文档来自技高网...

【技术保护点】
1.一种基于机器学习的文本处理方法,适于在计算设备中执行,所述方法包括:对获取的文本提取文本签名;从数据库中获取所述文本签名下已提取的文本模板;将文本与文本模板进行匹配,如果匹配成功则输出与所述文本匹配的文本模板编号;将所述文本模板编号移入数据库的缓存队列的头部;如果未匹配成功,则将未匹配的文本处理为模型输入数据,以便输入训练后的文本分类模型得到文本分类结果;以及判断缓存队列是否已满,如果已满则删除预定时间内使用次数最少的文本模板编号,将未匹配的文本签名及对应文本分类结果的哈希表插入缓存队列的头部。

【技术特征摘要】
1.一种基于机器学习的文本处理方法,适于在计算设备中执行,所述方法包括:对获取的文本提取文本签名;从数据库中获取所述文本签名下已提取的文本模板;将文本与文本模板进行匹配,如果匹配成功则输出与所述文本匹配的文本模板编号;将所述文本模板编号移入数据库的缓存队列的头部;如果未匹配成功,则将未匹配的文本处理为模型输入数据,以便输入训练后的文本分类模型得到文本分类结果;以及判断缓存队列是否已满,如果已满则删除预定时间内使用次数最少的文本模板编号,将未匹配的文本签名及对应文本分类结果的哈希表插入缓存队列的头部。2.如权利要求1所述的方法,其中,所述对获取的文本提取文本签名的步骤包括:基于预设的正则表达式提取所获取文本的签名。3.如权利要求1所述的方法,其中,在所述将文本和文本模板进行匹配的步骤之前,所述方法包括:获取预设的过滤词正则表达式列表;将文本与过滤词正则表达式列表中的各项进行匹配,如果匹配成功则输出过滤词标识,以便将所述文本过滤。4.如权利要求1所述的方法,其中,所述将文本和文本模板进行匹配的步骤包括:对文本和文本模板进行分词处理,得到文本词序列和文本模板词序列;基于文本词序列与文本模板词序列之间的编辑距离,如果编辑距离小于预定距离则匹配成功,否则匹配失败。5.如权利要求1所述的方法,其中,所述将所述文本模板编号移入数据库的缓存队列的头部的步骤包括:如果所述文本模板编号存在于缓存队列中,则将缓存队列中的该文本模板编号移入头部;否则判断缓存队列是否已满,如果已满则将最近最少使用的文本模板编号删除,并将所述文本模板...

【专利技术属性】
技术研发人员:王树大张兆明安丽娜
申请(专利权)人:北京鸿联九五信息产业有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1