一种文本分类方法及装置制造方法及图纸

技术编号:19277500 阅读:23 留言:0更新日期:2018-10-30 18:02
本发明专利技术实施例提供了一种文本分类方法及装置。在本发明专利技术实施例中,确定多个文本类别;对于每一个文本类别,获取分别属于该文本类别的多个样本文本;确定预设神经网络模型;使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练,得到目标文本分类模型;获取待分类文本;使用目标文本分类模型确定待分类文本在多个文本类别中所属的目标文本类别。通过本发明专利技术实施例的方法,可以确定待分类文本所述的文本类别。之后可以目标文本类别分类存储待分类文本,方便用户之后查询和使用和同领域归类。

A text categorization method and device

The embodiment of the invention provides a text classification method and device. In an embodiment of the invention, a plurality of text categories are determined; for each text category, a plurality of sample texts belonging to that text category are obtained; a preset neural network model is determined; and a preset neural network model is trained using a plurality of sample texts belonging to each text category to obtain a target text classification model. Type 2; Get the text to be classified; Use the target text classification model to determine the target text category to which the text to be classified belongs in multiple text categories. Through the method of the embodiment of the invention, the text category of the text to be classified can be determined. After that, the target text can be classified and stored, which is convenient for users to query and use and classify in the same domain.

【技术实现步骤摘要】
一种文本分类方法及装置
本专利技术涉及计算机
,特别是涉及一种文本分类方法及装置。
技术介绍
近年来,随着图像识别技术的不断成熟,名片识别、证件识别、银行卡识别等技术纷纷投入使用。这些技术可以从照片或图片中提取文本,但是文本所属的类别需要进行细分,才利于存储和使用。如名片中常出现的姓名、地址、职位、公司名称等。对文本分类后再分类存储这些文本,可以方便用户之后查询、使用和同领域归类。然而,如何对本文分类是一个亟待解决的技术问题。
技术实现思路
为了解决上述问题,本专利技术公开了一种文本分类方法及装置。第一方面,本专利技术实施例示出了一种文本分类方法,所述方法包括:确定多个文本类别;对于每一个文本类别,获取分别属于所述文本类别的多个样本文本;确定预设神经网络模型;使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练,得到目标文本分类模型;获取待分类文本;使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别。在一个可选的实现方式中,所述获取待分类文本,包括:获取目标图像,所述目标图像中包括待分类文本;对所述目标图像进行图像识别,得到所述目标图像中包括的文本,并作为所述待分类文本;或,获取用户输入的文本,并作为所述待分类文本;或,获取目标语音信号;对所述目标语音信号进行语音识别,得到所述目标语音信号对应的文本,并作为待分类文本。在一个可选的实现方式中,所述预设神经网络模型包括长短期记忆网络LSTM和门控循环单元GRU。在一个可选的实现方式中,所述使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别,包括:获取所述待分类文本中的每一个字符对应的向量;将每一个字符对应的向量按照字符在所述待分类文本中的先后顺序组成向量特征;利用所述向量特征和预设权重确定所述待分类文本属于每一个文本类别的概率;将最大的概率的文本类别确定为所述待分类文本所属的目标文本类别。在一个可选的实现方式中,所述使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别之后,还包括:获取用户对使用所述目标文本分类模型确定所述待分类文本所属的目标文本类别的评价信息;根据所述评价信息优化所述目标文本分类模型。第二方面,本专利技术实施例示出了一种文本分类装置,所述装置包括:第一确定模块,用于确定多个文本类别;第一获取模块,用于对于每一个文本类别,获取分别属于所述文本类别的多个样本文本;第二确定模块,用于确定预设神经网络模型;训练模块,用于使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练,得到目标文本分类模型;第二获取模块,用于获取待分类文本;第三确定模块,用于使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别。在一个可选的实现方式中,所述第二获取模块包括:第一获取单元,用于获取目标图像,所述目标图像中包括待分类文本;第一识别单元,用于对所述目标图像进行图像识别,得到所述目标图像中包括的文本,并作为所述待分类文本;或,第二获取单元,用于获取用户输入的文本,并作为所述待分类文本;或,第三获取单元,用于获取目标语音信号;第二识别单元,用于对所述目标语音信号进行语音识别,得到所述目标语音信号对应的文本,并作为待分类文本。在一个可选的实现方式中,所述预设神经网络模型包括长短期记忆网络LSTM和门控循环单元GRU。在一个可选的实现方式中,所述第三确定模块包括:第四获取单元,用于获取所述待分类文本中的每一个字符对应的向量;组合单元,用于将每一个字符对应的向量按照字符在所述待分类文本中的先后顺序组成向量特征;第一确定单元,用于利用所述向量特征和预设权重确定所述待分类文本属于每一个文本类别的概率;第二确定单元,用于将最大的概率的文本类别确定为所述待分类文本所属的目标文本类别。在一个可选的实现方式中,所述装置还包括:第三获取模块,用于获取用户对使用所述目标文本分类模型确定所述待分类文本所属的目标文本类别的评价信息;优化模块,用于根据所述评价信息优化所述目标文本分类模型。第三方面,本专利技术实施例示出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的文本分类方法的步骤。第四方面,本专利技术实施例示出了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的文本分类方法的步骤。与现有技术相比,本专利技术实施例包括以下优点:在本专利技术实施例中,确定多个文本类别;对于每一个文本类别,获取分别属于该文本类别的多个样本文本;确定预设神经网络模型;使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练,得到目标文本分类模型;获取待分类文本;使用目标文本分类模型确定待分类文本在多个文本类别中所属的目标文本类别。通过本专利技术实施例的方法,可以确定待分类文本所述的文本类别。之后可以目标文本类别分类存储待分类文本,方便用户之后查询和使用和同领域归类。附图说明图1是本专利技术的一种文本分类方法实施例的步骤流程图;图2是本专利技术的一种文本分类装置实施例的结构框图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。参照图1,示出了本专利技术的一种文本分类方法实施例的步骤流程图,具体可以包括如下步骤:在步骤S101中,确定多个文本类别;在本专利技术实施例中,需要事先确定多个文本类别,例如有姓名、职位、地址、公司名称、性别、网址、邮箱地址以及电话等等。其中,技术人员事先可以统计多个文本类别,然后将多个文本类别输入给设备,设备获取技术人员输入的多个文本类别。在步骤S102中,对于每一个文本类别,获取分别属于该文本类别的多个样本文本;在本专利技术实施例中,为提高训练出的目标文本分类模型的精度,获取属于每一个文本类别的样本文本的数量巨大,例如,可以为一万个,也可以大于一万。在本专利技术实施例中,可以使用爬虫工具爬取预设语料库中的文本,并作为样本文本,然后人工标注每一个样本文本的文本类别。预设语料库中的文本可以为网络上的用户评论或留言等文本。当然,也可以通过其他方式来获取分别属于每一个文本类别的多个样本文本。例如,技术人员为每一个文本类别人工选取多个样本文本,然后分别输入给设备,设备获取技术人员输入的分别属于每一个文本类别的多个样本文本。爬虫工具可以是一种自动获取文本的程序,也可以是搜索引擎的重要组成部分。搜索引擎使用爬虫工具寻找文本,网络上的HTML(HyperTextMark-upLanguage,超文本标记语言)文档使用超链接连接了起来,就像织成了一张网,爬虫工具顺着这张网爬行,每到一个网页就将这个网页抓下来,再将该网页中的将文本抽取出来,同时抽取超链接,作为进一步爬行的线索。该爬虫工具可以为开源的爬虫工具、非开源的爬虫工具、单独开发或基于开源或非开源的爬虫工具进行二次开发后得到的爬虫工具。在步骤S103中,确定预设神经网络模型;预设神经网络模型包括(LongShort-TermMemory,长短期记忆网络)LSTM和GRU(GatedRecurrentUnit,门控循环单元)。当然,在本专利技术实施例中也可以使本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,所述方法包括:确定多个文本类别;对于每一个文本类别,获取分别属于所述文本类别的多个样本文本;确定预设神经网络模型;使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练,得到目标文本分类模型;获取待分类文本;使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别。

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:确定多个文本类别;对于每一个文本类别,获取分别属于所述文本类别的多个样本文本;确定预设神经网络模型;使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练,得到目标文本分类模型;获取待分类文本;使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别。2.根据权利要求1所述的方法,其特征在于,所述获取待分类文本,包括:获取目标图像,所述目标图像中包括待分类文本;对所述目标图像进行图像识别,得到所述目标图像中包括的文本,并作为所述待分类文本;或,获取用户输入的文本,并作为所述待分类文本;或,获取目标语音信号;对所述目标语音信号进行语音识别,得到所述目标语音信号对应的文本,并作为待分类文本。3.根据权利要求1所述的方法,其特征在于,所述预设神经网络模型包括长短期记忆网络LSTM和门控循环单元GRU。4.根据权利要求1所述的方法,其特征在于,所述使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别,包括:获取所述待分类文本中的每一个字符对应的向量;将每一个字符对应的向量按照字符在所述待分类文本中的先后顺序组成向量特征;利用所述向量特征和预设权重确定所述待分类文本属于每一个文本类别的概率;将最大的概率的文本类别确定为所述待分类文本所属的目标文本类别。5.根据权利要求1所述的方法,其特征在于,所述使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别之后,还包括:获取用户对使用所述目标文本分类模型确定所述待分类文本所属的目标文本类别的评价信息;根据所述评价信息优化所述目标文本分类模型。6.一种文本分类装置,其特征在于,所述装置包括:第一确定模块,用于确定...

【专利技术属性】
技术研发人员:殷子墨李健张连毅武卫东
申请(专利权)人:北京捷通华声科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1