【技术实现步骤摘要】
基于深度学习的数据归类方法、及其相关设备
本专利技术涉及人工智能
,尤其涉及一种基于深度学习的数据归类方法、及其相关设备。
技术介绍
随着社会的发展,各类数据层出不穷,为了便于用户对数据进行识别,需要对数据进行归类处理,传统的数据归类方式一般采用模板匹配标注的方式进行处理,但该方法对数据支持的灵活性不够,使到在模板匹配过程中存在模板更新不及时,无法准确利用模板进行匹配标注,导致数据归类的效率低下,以及影响数据归类的准确性。
技术实现思路
本专利技术实施例提供一种基于深度学习的数据归类方法、及其相关设备,以解决数据归类效率低下以及准确性不高的问题。一种基于深度学习的数据归类方法,包括:从标签数据库中获取待归类数据对应的标签名称;对所述标签名称进行文本处理,得到目标名称;对所述目标名称进行文本分词,提取第一类特征分词、第二类特征分词和第三类特征分词;将所述第一类特征分词、所述第二类特征分词和所述第三类特征分词分别进行词向量转换处理,得到第一类词向量、第二类词向量和第三类词向量;将所述第一类词向量、所述第二类词向量和所述第三类词向量导入到预先训练好的目标归类模型中进行识别,输出所述标签名称对应的识别结果,并将所述识别结果作为所述待归类数据的归类结果。一种基于深度学习的数据归类装置,包括:第一获取模块,用于从标签数据库中获取待归类数据对应的标签名称;文本处理模块,用于对所述标签名称进行文本处理,得到目标名称;特征分词获取 ...
【技术保护点】
1.一种基于深度学习的数据归类方法,其特征在于,所述基于深度学习的数据归类方法包括:/n从标签数据库中获取待归类数据对应的标签名称;/n对所述标签名称进行文本处理,得到目标名称;/n对所述目标名称进行文本分词,提取第一类特征分词、第二类特征分词和第三类特征分词;/n将所述第一类特征分词、所述第二类特征分词和所述第三类特征分词分别进行词向量转换处理,得到第一类词向量、第二类词向量和第三类词向量;/n将所述第一类词向量、所述第二类词向量和所述第三类词向量导入到预先训练好的目标归类模型中进行识别,输出所述标签名称对应的识别结果,并将所述识别结果作为所述待归类数据的归类结果。/n
【技术特征摘要】
1.一种基于深度学习的数据归类方法,其特征在于,所述基于深度学习的数据归类方法包括:
从标签数据库中获取待归类数据对应的标签名称;
对所述标签名称进行文本处理,得到目标名称;
对所述目标名称进行文本分词,提取第一类特征分词、第二类特征分词和第三类特征分词;
将所述第一类特征分词、所述第二类特征分词和所述第三类特征分词分别进行词向量转换处理,得到第一类词向量、第二类词向量和第三类词向量;
将所述第一类词向量、所述第二类词向量和所述第三类词向量导入到预先训练好的目标归类模型中进行识别,输出所述标签名称对应的识别结果,并将所述识别结果作为所述待归类数据的归类结果。
2.如权利要求1所述的基于深度学习的数据归类方法,其特征在于,所述对所述标签名称进行文本处理,得到目标名称的步骤包括:
对所述标签名称进行标点符号去除处理,得到第一名称;
利用正则匹配将所述第一名称中的大写字母转换成小写字母,得到第二名称;
对所述第二名称进行全角转半角处理,得到第三名称;
根据预设规则对所述第三名称进行过滤处理,得到所述目标名称。
3.如权利要求2所述的基于深度学习的数据归类方法,其特征在于,所述根据预设条件对所述第三名称进行过滤处理,得到所述目标名称的步骤包括:
从预设停用词库中获取停用词;
将所述第三名称与所述停用词进行匹配,若所述第三名称中包含所述停用词,则将所述第三名称中与所述停用词相同的词汇进行删除处理,以删除处理后的第三名称作为所述目标名称。
4.如权利要求1所述的基于深度学习的数据归类方法,其特征在于,所述对所述目标名称进行文本分词,提取第一类特征分词、第二类特征分词和第三类特征分词的步骤包括:
利用预设分词器对所述目标名称进行分词处理,得到第一类分词、第二类分词和第三类分词,其中,所述第一类分词、所述第二类分词和所述第三类分词中均包含至少两个词汇;
根据预设词频数据库,分别获取所述第一类分词、所述第二类分词和所述第三类分词中每个词汇对应的词频;
将所述词频与预设阈值进行比较,并按照预设条件确定所述第一类特征分词、所述第二类特征分词和所述第三类特征分词。
5.如权利要求4所述的基于深度学习的数据归类方法,其特征在于,所述将所述词频与预设阈值进行比较,并按照预设条件确定所述第一类特征分词、所述第二类特征分词和所述第三类特征分词的步骤包括:
将所述词频与预设阈值进行比较,若所述第一类分词中存在词频大于等于预设阈值的词汇,则将所述词汇确定为所述第一类特征分词,若所述第二类分词中存在词频大于等于预设阈值的词汇,则将所述词汇确定为所述第二类特征分词,若所述第三类分词中存在词频大于等于预设阈值的词汇,则将所述词汇确定为所述第三类特征分词;
若所述第一类分词中存在词频小于预设阈值的词汇,则将所述词汇替换成预设词汇并确定为所述第一类特征分词,若所述第二类分词中存在词频小于预设阈值...
【专利技术属性】
技术研发人员:唐亚,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。