一种基于混合模型的整车质量问题的分类方法和系统技术方案

技术编号:36812668 阅读:16 留言:0更新日期:2023-03-09 00:54
本发明专利技术公开了一种基于混合模型的整车质量问题的分类方法和系统,根据多条整车检测不良数据的历史数据对多个文本分类模型进行训练,根据每个文本分类模型分别在训练集和测试集的精度设定每个文本分类模型的权重;将整车检测不良数据输入到多个文本分类模型中,得到多个预测结果,根据多个预测结果和多个权重得到该整车检测不良数据的类别。本发明专利技术建立了多个模型集成的文本分类方法,可以快速、准确的判定整车检测质量问题的类别,应用该类别可以指导主机厂快速对质量问题进行分析及找到相关对策;同时采用集成学习思想,让多个文本分类模型投票决定最终类别,使得归类结果更加精确。确。确。

【技术实现步骤摘要】
一种基于混合模型的整车质量问题的分类方法和系统


[0001]本专利技术属于深度学习
,具体涉及一种基于混合模型的整车质量问题的分类方法和系统。

技术介绍

[0002]整车装备完成之后需要对其进行检测,检测人员通过人工感官(耳听、眼观、手摸)以及车载终端设备连接车辆的方式对整车进行故障检测,对于检测出的车辆故障需要找到其归类,进而根据归类找到相应的责任部门进行整改。为了不影响产线正常检测,检测人员对于车辆故障的归类判定存在耗时长、精度低、前后数据无连贯性的问题。因此,整车检测领域需要一种快速、准确的方法来对整车故障的归类进行快速判定。
[0003]整车质量问题的判定数据可以视为以所属归类为标签的文本数据,因此对于归类的判定可以转化为文本分类模型。目前将主机厂生产过程中整车质量问题的归类与自然语言处理技术、深度学习技术联合的研究文献较少;文本分类领域中的大多数方法仅考虑单语言、单模型,中文文本的分类精度依赖分词精度、词语向量化表达结果;同时,单模型训练代数增多容易出现过拟合,精度会降低,结果准确性依赖训练质量。

技术实现思路

[0004]为了提高在整车检测过程中快速落实每个整车故障的归类,提高整车检测的效率,本专利技术提出一种混合模型的整车质量问题的分类方法和系统。
[0005]实现本专利技术目的之一的一种基于混合模型的整车质量问题的分类方法,包括如下步骤:
[0006]S1、根据多条整车检测不良数据的历史数据对多个文本分类模型进行训练,根据每个文本分类模型分别在训练集和测试集的精度设定每个文本分类模型的权重;所述文本分类模型用于预测每条整车检测不良数据的类别;
[0007]S2、将整车检测不良数据输入到多个文本分类模型中,得到多个预测结果,根据所述多个预测结果和所述多个权重得到该整车检测不良数据的类别。所述类别可以用于对整车质量问题的质量回溯等实际用途。
[0008]进一步地,所述步骤S1中还包括采用信息熵的方式对整车检测不良数据的部分列进行剔除,计算每一列的熵值,对于熵值低于设定值的列进行剔除,其计算方法包括:
[0009][0010]式中:
[0011]H(X):表示列X的熵值;
[0012]式中表示该列数据X为x
i
的概率;x
i
为列数据X中的第i类的值。
[0013]进一步地,为了提高模型的精度,所述步骤S1中还包括采用计算空值占比的方式
对整车检测不良数据进行剔除,计算每一列数据中空值所占的比例,对于比例低于设定值的列进行剔除。
[0014]进一步地,为了提高模型的精度,所述步骤S1中还包括基于信息冗余的列剔除,如果某列数据是其它几列数据的组数据,则将其它几列数据进行删除。
[0015]进一步地,为了提高模型的精度,所述步骤S1中还包括对数据中的专业术语进行统一,将同一对象的不同描述进行统一,以提高预测的准确率。
[0016]进一步地,所述步骤S1中,所述整车检测不良数据中的每一条数据由多组代表整车故障属性的数据组成,训练文本分类模型时,将每一条整车检测不良数据中除类别外的其它每一组数据用空格分隔开后拼接成描述数据,类别作为标签数据,所述描述数据和标签数据作为文本分类模型的输入参数,文本分类模型的输出参数为每条整车检测不良数据的预测类别。
[0017]更进一步地,所述步骤S1中,所述文本分类模型包括Fasttext模型,构建Fasttext模型时在标签数据前添加前缀“_label_”后作为作为Fasttext模型的输入参数。
[0018]更进一步地,一般词向量训练是100

200

300纬度。本专利技术中设置为300纬度,为了加快训练速度,通过计算每一个纬度的方差发现前50纬方差可以很好代表所有数据信息。因此,所述步骤S1中,所述文本分类模型包括Word2Vec

SVM模型,构建并训练Word2Vec

SVM模型时,采用Word2Vec算法训练的词向量维度设置为300维,通过PCA算法降维至50维之后再进行SVM模型训练。
[0019]更进一步地,所述步骤S1中,所述文本分类模型包括Word2Vec

SVM模型和Fasttext模型,在训练Word2Vec

SVM模型和Fasttext模型时,均采用GridSearch算法在超参数空间寻找最优解。
[0020]更进一步地,所述步骤S1中,所述文本分类模型包括DistilBERT模型,微调预训练模型DistilBERT的时,batch_size设置为8或者16,以防止运行模型的机器内存不够。
[0021]更进一步地,所述步骤S1中,所述文本分类模型包括DistilBERT模型,建立DistilBERT模型时需要对每一标签数据添加前缀[CLS]和后缀[SEP]作为DistilBERT模型的输入参数。
[0022]进一步地,所述步骤S1中,设定每个文本分类模型的多个权重的方法包括:
[0023][0024]式中:
[0025]ω:表示文本分类模型的权重,其中ω1<ω2<ω3;
[0026]N1、N2:设定值,N1<N2;
[0027]accuracy
test
:表示文本分类模型在训练集的精度;
[0028]accuracy
train
:表示文本分类模型在测试集的精度。
[0029]进一步地,所述步骤S2中,得到该条整车检测不良数据的类别的方法包括:根据每个文本分类模型输出的类别得到每个类别的票数;票数最高的类别则为该条整车检测不良
数据最终的类别。
[0030]更进一步地,所述票数的计算方法为:
[0031][0032]式中:
[0033]V
label
:为该条整车检测不良数据的类别为label的票数;
[0034]P
i

label
:表示第i个模型输出的类别是否为label,为label时则P
i

label
=1,否则为0;
[0035]w
i
:表示第i个模型的权重。
[0036]进一步地,由于模型对于不同语言的预测能力和处理方式不同,且多种语言表述的数据可以丰富模型训练的数据集,提高模型的预测精度;且由于本专利技术中的整车检测不良数据的数据集记录方式类似实体多元组(“车型”,“一级部品”,“二级部品”,“不良现象
”……
),每一个元组都是人工记录的,分词精度高;自动翻译的时候,只需要翻译单个的词即可,不需要考虑上下文语义;因此在进行语言转换的时候翻译的精度较高,适用于多语言转化。另外,多语言大大丰富了数据集,不同语言的预测能力也不同,可以弥补单语言预测的不足。因此,所述步骤S1中,还本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于混合模型的整车质量问题的分类方法,其特征在于,包括如下步骤:S1、根据多条整车检测不良数据的历史数据对多个文本分类模型进行训练,根据每个文本分类模型分别在训练集和测试集的精度设定每个文本分类模型的权重;所述文本分类模型用于预测每条整车检测不良数据的类别;S2、将整车检测不良数据输入到多个文本分类模型中,得到多个预测结果,根据所述多个预测结果和所述多个权重得到该整车检测不良数据的类别。2.如权利要求1所述的基于混合模型的整车质量问题的分类方法,其特征在于,所述步骤S1中,设定每个文本分类模型的多个权重的方法包括:式中:ω:表示文本分类模型的权重,其中ω1<ω2<ω3;N1、N2:设定值,N1<N2;accuracy
test
:表示文本分类模型在训练集的精度;accuracy
train
:表示文本分类模型在测试集的精度。3.如权利要求1所述的基于混合模型的整车质量问题的分类方法,其特征在于,所述步骤S1中,还包括将多条整车检测不良数据翻译成多种语言对多个文本分类模型进行训练。4.如权利要求1所述的基于混合模型的整车质量问题的分类方法,其特征在于,所述步骤S2中,得到该条整车检测不良数据的类别的方法包括:根据每个文本分类模型输出的类别得到每个类别的票数;票数最高的类别则为该条整车检测不良数据最终的类别。5.如权利要求4所述的基于混合模型的整车质量问题的分类方法,其特征在于,所述票数的计算方法为:式中:V
label
:为该条整车检测不良数据的类别为label的票数;P
i

label
:表示第i个模型输出的类别是否为label,为label时则P
i

label<...

【专利技术属性】
技术研发人员:白桢文黄涛秦小兵吴健
申请(专利权)人:东风本田汽车有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1