基于深度学习的数据归类方法、及其相关设备技术

技术编号:23315192 阅读:14 留言:0更新日期:2020-02-11 17:49
本发明专利技术涉及人工智能技术领域,提供了一种基于深度学习的数据归类方法、及其相关设备,所述基于深度学习的数据归类方法包括:对获取到的待归类数据对应的标签名称进行文本处理,得到目标名称;对目标名称进行文本分词,提取第一类特征分词、第二类特征分词和第三类特征分词;将第一类特征分词、第二类特征分词和第三类特征分词分别进行词向量转换处理,得到第一类词向量、第二类词向量和第三类词向量;将第一类词向量、第二类词向量和第三类词向量导入到预先训练好的目标归类模型中进行识别,输出识别结果,并将该识别结果作为待归类数据的归类结果。本发明专利技术的技术方案实现提高对待归类数据进行归类的效率和准确性,进而提高用户的工作效率。

Data classification method and related equipment based on deep learning

【技术实现步骤摘要】
基于深度学习的数据归类方法、及其相关设备
本专利技术涉及人工智能
,尤其涉及一种基于深度学习的数据归类方法、及其相关设备。
技术介绍
随着社会的发展,各类数据层出不穷,为了便于用户对数据进行识别,需要对数据进行归类处理,传统的数据归类方式一般采用模板匹配标注的方式进行处理,但该方法对数据支持的灵活性不够,使到在模板匹配过程中存在模板更新不及时,无法准确利用模板进行匹配标注,导致数据归类的效率低下,以及影响数据归类的准确性。
技术实现思路
本专利技术实施例提供一种基于深度学习的数据归类方法、及其相关设备,以解决数据归类效率低下以及准确性不高的问题。一种基于深度学习的数据归类方法,包括:从标签数据库中获取待归类数据对应的标签名称;对所述标签名称进行文本处理,得到目标名称;对所述目标名称进行文本分词,提取第一类特征分词、第二类特征分词和第三类特征分词;将所述第一类特征分词、所述第二类特征分词和所述第三类特征分词分别进行词向量转换处理,得到第一类词向量、第二类词向量和第三类词向量;将所述第一类词向量、所述第二类词向量和所述第三类词向量导入到预先训练好的目标归类模型中进行识别,输出所述标签名称对应的识别结果,并将所述识别结果作为所述待归类数据的归类结果。一种基于深度学习的数据归类装置,包括:第一获取模块,用于从标签数据库中获取待归类数据对应的标签名称;文本处理模块,用于对所述标签名称进行文本处理,得到目标名称;特征分词获取模块,用于对所述目标名称进行文本分词,提取第一类特征分词、第二类特征分词和第三类特征分词;词向量转换模块,用于将所述第一类特征分词、所述第二类特征分词和所述第三类特征分词分别进行词向量转换处理,得到第一类词向量、第二类词向量和第三类词向量;识别模块,用于将所述第一类词向量、所述第二类词向量和所述第三类词向量导入到预先训练好的目标归类模型中进行识别,输出所述标签名称对应的识别结果,并将所述识别结果作为所述待归类数据的归类结果。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于深度学习的数据归类方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于深度学习的数据归类方法的步骤。上述基于深度学习的数据归类方法、及其相关设备,通过对获取到的标签名称进行文本处理,得到对应的目标名称,对目标名称进行文本分词,得到提取第一类特征分词、第二类特征分词和第三类特征分词,再分别对第一类特征分词、第二类特征分词和第三类特征分词进行词向量转换,得到第一类词向量、第二类词向量和第三类词向量,最后将第一类词向量、第二类词向量和第三类词向量导入到目标归类模型中进行识别,得到标签名称对应的识别结果,并将该识别结果作为待归类数据的归类结果。从而实现对待归类数据的自动归类,通过对标签名称进行分词以及结合目标归类模型进行识别的方式,能够提高对待归类数据进行归类的效率和准确性,进一步提高用户利用归类结果进行查询的工作效率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的基于深度学习的数据归类方法的流程图;图2是本专利技术实施例提供的基于深度学习的数据归类方法中步骤S2的流程图;图3是本专利技术实施例提供的基于深度学习的数据归类方法中步骤S24的流程图;图4是本专利技术实施例提供的基于深度学习的数据归类方法中步骤S3的流程图;图5是本专利技术实施例提供的基于深度学习的数据归类方法中步骤S33的流程图;图6是本专利技术实施例提供的基于深度学习的数据归类方法中利用训练样本训练得到目标归类模型的流程图;图7是本专利技术实施例提供的基于深度学习的数据归类方法中对卷积神经网络模型进行训练的流程图;图8是本专利技术实施例提供的基于深度学习的数据归类装置的示意图;图9是本专利技术实施例提供的计算机设备的基本机构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本申请提供的基于深度学习的数据归类方法应用于服务端,服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。在一实施例中,如图1所示,提供一种基于深度学习的数据归类方法,包括如下步骤:S1:从标签数据库中获取待归类数据对应的标签名称。在本专利技术实施例中,通过对标签数据库进行检测,当检测到标签数据库中存在待归类数据对应的标签名称时,直接对标签名称进行提取,并在提取后将该标签名称从标签数据库中进行删除。其中,标签数据库是指专门用于存储待归类数据对应的标签名称的数据库。待归类数据是指需要进行归类处理的数据。需要说明的是,标签数据库中的标签名称通常是以一句话的形式,例如“小贤才智能正姿笔护眼笔视力矫正预防近视多功能笔”,“初秋空调保暖围巾海边超大沙滩巾女披肩纱巾丝巾围巾礼盒装”,“【领券立减30】儿童保温杯吸管两用幼儿园宝宝水壶男女小学生防摔便携水杯”等。S2:对标签名称进行文本处理,得到目标名称。在本专利技术实施例中,文本处理是指对标签名称按照用户设定的规则进行修改的处理,其中,用户设定的规则具体可以是去除标点符号、字母大小写转换等等。具体地,通过将标签名称导入到预设修改端口中进行文本处理,将经过文本处理后的标签名称确定为目标名称。其中,预设修改端口是指专门用于对标签名称进行文本处理的处理端口。例如,标签名称为:“明日之星”之多功能智能钢笔,将该标签名称导入到预设修改端口中进行文本处理后,得到的目标分词为:明日之星之多功能智能钢笔。S3:对目标名称进行文本分词,提取第一类特征分词、第二类特征分词和第三类特征分词。在本专利技术实施例中,第一类特征分词是指目标名称按照第一分词规则进行文本分词后得到的分词;第二类特征分词是指目标名称按照第二分词规则进行文本分词后得到的分词;第三类特征分词是指目标名称按照第三分词规则进行文本分词后得到的分词;其中,第一分词规则、第二分词规则和第三分词规则均不相同。具体地,将目标名称导入到预设分词端口中,选取第一分词规则、第二分词规则和第三分词规则对目标名称进行分词处理后,分别得到分词处理后的第一类特征分词、第二类特征分词和第三类特征分词。其中,预设分词端口是指专门用于对目标名称进行分词处理的处理端口,且该预设分词本文档来自技高网...

【技术保护点】
1.一种基于深度学习的数据归类方法,其特征在于,所述基于深度学习的数据归类方法包括:/n从标签数据库中获取待归类数据对应的标签名称;/n对所述标签名称进行文本处理,得到目标名称;/n对所述目标名称进行文本分词,提取第一类特征分词、第二类特征分词和第三类特征分词;/n将所述第一类特征分词、所述第二类特征分词和所述第三类特征分词分别进行词向量转换处理,得到第一类词向量、第二类词向量和第三类词向量;/n将所述第一类词向量、所述第二类词向量和所述第三类词向量导入到预先训练好的目标归类模型中进行识别,输出所述标签名称对应的识别结果,并将所述识别结果作为所述待归类数据的归类结果。/n

【技术特征摘要】
1.一种基于深度学习的数据归类方法,其特征在于,所述基于深度学习的数据归类方法包括:
从标签数据库中获取待归类数据对应的标签名称;
对所述标签名称进行文本处理,得到目标名称;
对所述目标名称进行文本分词,提取第一类特征分词、第二类特征分词和第三类特征分词;
将所述第一类特征分词、所述第二类特征分词和所述第三类特征分词分别进行词向量转换处理,得到第一类词向量、第二类词向量和第三类词向量;
将所述第一类词向量、所述第二类词向量和所述第三类词向量导入到预先训练好的目标归类模型中进行识别,输出所述标签名称对应的识别结果,并将所述识别结果作为所述待归类数据的归类结果。


2.如权利要求1所述的基于深度学习的数据归类方法,其特征在于,所述对所述标签名称进行文本处理,得到目标名称的步骤包括:
对所述标签名称进行标点符号去除处理,得到第一名称;
利用正则匹配将所述第一名称中的大写字母转换成小写字母,得到第二名称;
对所述第二名称进行全角转半角处理,得到第三名称;
根据预设规则对所述第三名称进行过滤处理,得到所述目标名称。


3.如权利要求2所述的基于深度学习的数据归类方法,其特征在于,所述根据预设条件对所述第三名称进行过滤处理,得到所述目标名称的步骤包括:
从预设停用词库中获取停用词;
将所述第三名称与所述停用词进行匹配,若所述第三名称中包含所述停用词,则将所述第三名称中与所述停用词相同的词汇进行删除处理,以删除处理后的第三名称作为所述目标名称。


4.如权利要求1所述的基于深度学习的数据归类方法,其特征在于,所述对所述目标名称进行文本分词,提取第一类特征分词、第二类特征分词和第三类特征分词的步骤包括:
利用预设分词器对所述目标名称进行分词处理,得到第一类分词、第二类分词和第三类分词,其中,所述第一类分词、所述第二类分词和所述第三类分词中均包含至少两个词汇;
根据预设词频数据库,分别获取所述第一类分词、所述第二类分词和所述第三类分词中每个词汇对应的词频;
将所述词频与预设阈值进行比较,并按照预设条件确定所述第一类特征分词、所述第二类特征分词和所述第三类特征分词。


5.如权利要求4所述的基于深度学习的数据归类方法,其特征在于,所述将所述词频与预设阈值进行比较,并按照预设条件确定所述第一类特征分词、所述第二类特征分词和所述第三类特征分词的步骤包括:
将所述词频与预设阈值进行比较,若所述第一类分词中存在词频大于等于预设阈值的词汇,则将所述词汇确定为所述第一类特征分词,若所述第二类分词中存在词频大于等于预设阈值的词汇,则将所述词汇确定为所述第二类特征分词,若所述第三类分词中存在词频大于等于预设阈值的词汇,则将所述词汇确定为所述第三类特征分词;
若所述第一类分词中存在词频小于预设阈值的词汇,则将所述词汇替换成预设词汇并确定为所述第一类特征分词,若所述第二类分词中存在词频小于预设阈值...

【专利技术属性】
技术研发人员:唐亚
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1