化工品货物危险性识别模型训练方法、识别方法、装置制造方法及图纸

技术编号:34767379 阅读:30 留言:0更新日期:2022-08-31 19:21
本发明专利技术涉及一种化工品货物危险性识别模型训练方法、识别方法、装置,模型方法包括:S1、从数据库中获取化工品货物的货物名称文本数据以及对应的危险性标签数据;S2、对数据进行清洗,分割数据为训练集和测试集;S3、使用BERT预训练模型对训练集和测试集中的货物名称文本数据进行字嵌入,使用高维度向量矩阵表示化工品货物名称;S4、构建危险性分类识别的分类模型,将化工品货物名称的高维度向量矩阵作为分类模型输入,循环训练并测试分类模型。与现有技术相比,本发明专利技术可快速、准确、便捷地识别化工品货物危险性。工品货物危险性。工品货物危险性。

【技术实现步骤摘要】
化工品货物危险性识别模型训练方法、识别方法、装置


[0001]本专利技术涉及一种化工品货物危险性识别方法,尤其是涉及一种基于BERT预训练模型的化工品货物危险性识别方法。

技术介绍

[0002]化工品货物的危险性,一般通过专业机构的鉴定来识别和判断。此类鉴定,通常需要收集化工品货物相关的信息和数据,以及花费一定的时间,才能得到准确的结论。然而,在某些场景下,化工品货物的信息和数据并不可得,或时间上无法满足鉴定所需要的资源,如专业机构在对化工品货物进行测试之前,无法判断货物的危险性,则使得员工在处理该货物时存在一定的安全风险;如运输公司对于安全信息不完整的货物,需要快速对其危险性进行判断,以采取恰当的处置措施,亦没有充足的时间等待鉴定流程的结束。在信息和时间匮乏的情况下,有经验的专业人士,通常可以依据化工品货物的名称对其危险性进行一定程度的预判识别。完成这样的识别,通常是专业人士在自己的经验和知识中,或完整地匹配货物名称,或通过关键性的词语,对化工品货物的危险性进行综合判断。这个过程,说明了化工品货物的名称之中,包含了一定的信息,可用于对货物的危险性进行一定程度的识别。然而,此种完全依赖专业人士经验的方法普适性低,效率低下。

技术实现思路

[0003]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于BERT预训练模型的化工品货物危险性识别方法,可快速、准确、便捷地识别化工品货物危险性。
[0004]本专利技术的目的可以通过以下技术方案来实现:
[0005]一种化工品货物危险性识别模型训练方法,该方法包括:
[0006]S1、从数据库中获取化工品货物的货物名称文本数据以及对应的危险性标签数据;
[0007]S2、对数据进行清洗,分割数据为训练集和测试集;
[0008]S3、使用BERT预训练模型对训练集和测试集中的货物名称文本数据进行字嵌入,使用高维度向量矩阵表示化工品货物名称;
[0009]S4、构建危险性分类识别的分类模型,将化工品货物名称的高维度向量矩阵作为分类模型输入,循环训练并测试分类模型。
[0010]优选地,步骤S2中的数据清洗包括去除货物名称文本数据中的噪声。
[0011]优选地,步骤S2中训练集和测试集的分割比例为9:1。
[0012]优选地,步骤S3使用Pytorch深度学习框架加载BERT预训练模型。
[0013]优选地,步骤S3包括:利用BERT预训练模型对训练集和测试集中的货物名称文本数据进行字嵌入,用高维度向量表示货物名称文本数据中的每一个字,将高维度向量拼接得到化工品货物名称的高维度向量矩阵。
[0014]优选地,所述的BERT预训练模型包括BERT

Base

Chinese中文预训练模型。
[0015]优选地,所述的分类模型包括全连接神经网络模型。
[0016]一种化工品货物危险性识别方法,该方法包括:
[0017]获取待识别的化工品货物的货物名称文本数据并进行预处理;
[0018]使用BERT预训练模型对预处理后的货物名称文本数据进行字嵌入,使用高维度向量矩阵表示化工品货物名称;
[0019]将化工品货物名称的高维度向量矩阵输入至预先训练的分类模型,输出化工品货物的危险性识别结果;
[0020]所述的预先训练的分类模型通过上述方法训练。
[0021]一种化工品货物危险性识别模型训练装置,该装置包括:
[0022]样本获取模块:从数据库中获取化工品货物的货物名称文本数据以及对应的危险性标签数据并存储;
[0023]样本处理模块:对获取的样本数据进行清洗,分割数据为训练集和测试集;
[0024]字嵌入处理模块:使用BERT预训练模型对训练集和测试集中的货物名称文本数据进行字嵌入,使用高维度向量矩阵表示化工品货物名称;
[0025]训练测试模块:构建危险性分类识别的分类模型,将化工品货物名称的高维度向量矩阵作为分类模型输入,循环训练并测试分类模型。
[0026]一种化工品货物危险性识别装置,该装置包括:
[0027]数据获取与预处理模块:获取待识别的化工品货物的货物名称文本数据并进行预处理;
[0028]字嵌入处理模块:使用BERT预训练模型对预处理后的货物名称文本数据进行字嵌入,使用高维度向量矩阵表示化工品货物名称;
[0029]分类模块:将化工品货物名称的高维度向量矩阵输入至预先训练的分类模型,输出化工品货物的危险性识别结果。
[0030]与现有技术相比,本专利技术具有如下优点:
[0031](1)本专利技术首创性地将BERT预训练模型应用于化工品货物危险性的识别,基于BERT预训练模型对化工品货物名称文本数据进行字嵌入,使用高维度向量矩阵表示化工品货物名称,从而通过分类模型进行危险性分类识别,从而无需依赖专业人士便可快速、准确、便捷地识别化工品货物危险性。
[0032](2)本专利技术方法对危险化工品货物的识别率达到97%,对普通化工品货物的识别准确率达到99%。
附图说明
[0033]图1为本专利技术一种化工品货物危险性识别模型训练方法的流程图;
[0034]图2为本专利技术BERT预训练模型将文本转换为高维度向量矩阵的示意图;
[0035]图3为本专利技术用于危险性分类识别的分类模型的结构示意图;
[0036]图4为本专利技术一种化工品货物危险性识别方法的流程图。
具体实施方式
[0037]下面结合附图和具体实施例对本专利技术进行详细说明。注意,以下的实施方式的说
明只是实质上的例示,本专利技术并不意在对其适用物或其用途进行限定,且本专利技术并不限定于以下的实施方式。
[0038]实施例1
[0039]如图1所示,本实施例提供一种化工品货物危险性识别模型训练方法,该方法包括:
[0040]S1、从数据库中获取化工品货物的货物名称文本数据以及对应的危险性标签数据;
[0041]S2、对数据进行清洗,分割数据为训练集和测试集;
[0042]S3、使用BERT预训练模型对训练集和测试集中的货物名称文本数据进行字嵌入,使用高维度向量矩阵表示化工品货物名称;
[0043]S4、构建危险性分类识别的分类模型,将化工品货物名称的高维度向量矩阵作为分类模型输入,循环训练并测试分类模型。
[0044]具体地,本实施例中步骤S1、从数据库中获取约50万个化工品货物的名称,以及这些化工品货物对应的危险性作为标签。其中,以标签“0”代表普通货物,“1”代表危险货物。将以上相关信息,以DataFrame格式储存在内存中,以备后续使用。
[0045]步骤S2中的数据清洗包括去除货物名称文本数据中的噪声,如未能识别的特殊字符等。将清洗后的货物名称和危险性标签按照九比一的比例分为训练集和测试集,并储存于内存中,以备后续使用。
[0046]步骤S3使用Pytorch深本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种化工品货物危险性识别模型训练方法,其特征在于,该方法包括:S1、从数据库中获取化工品货物的货物名称文本数据以及对应的危险性标签数据;S2、对数据进行清洗,分割数据为训练集和测试集;S3、使用BERT预训练模型对训练集和测试集中的货物名称文本数据进行字嵌入,使用高维度向量矩阵表示化工品货物名称;S4、构建危险性分类识别的分类模型,将化工品货物名称的高维度向量矩阵作为分类模型输入,循环训练并测试分类模型。2.根据权利要求1所述的一种化工品货物危险性识别模型训练方法,其特征在于,步骤S2中的数据清洗包括去除货物名称文本数据中的噪声。3.根据权利要求1所述的一种化工品货物危险性识别模型训练方法,其特征在于,步骤S2中训练集和测试集的分割比例为9:1。4.根据权利要求1所述的一种化工品货物危险性识别模型训练方法,其特征在于,步骤S3使用Pytorch深度学习框架加载BERT预训练模型。5.根据权利要求1所述的一种化工品货物危险性识别模型训练方法,其特征在于,步骤S3包括:利用BERT预训练模型对训练集和测试集中的货物名称文本数据进行字嵌入,用高维度向量表示货物名称文本数据中的每一个字,将高维度向量拼接得到化工品货物名称的高维度向量矩阵。6.根据权利要求1所述的一种化工品货物危险性识别模型训练方法,其特征在于,所述的BERT预训练模型包括BERT

Base

Chinese中文预训练模型。7.根据权利要求1所述的一种化工...

【专利技术属性】
技术研发人员:王高俊黄河清李京楠黄知清肖秋平章明洪杨旭李铭恩包剑付旭王文洁
申请(专利权)人:上海化工研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1