一种物质气味留香值快速获取方法技术

技术编号:28945340 阅读:24 留言:0更新日期:2021-06-18 21:57
本发明专利技术公开了一种物质气味留香值快速获取方法,属于机器嗅觉技术领域。所述方法包括步骤:获取已测留香值物质气味分子的物化特性数据;对物化特性数据预处理,得到训练样本;将所述训练样本输入初始随机森林模型训练;获取待测留香值的物化特性数据;然后进行预处理,得到待测物化特性数据;将所述待测数据输入完成训练随机森林模型,得到留香预测结果值。通过物质气味样本训练随机森林模型,利用完成训练随机森林模型获取目标对象的留香值,相比于现有技术通过人工嗅辩气味在试纸上最大保留天数来确定留香值的方案,避免了测试环境、受试者敏感度因素的影响,能提高物质气味留香值判断的准确度,减少获取留香值的成本。

【技术实现步骤摘要】
一种物质气味留香值快速获取方法
本专利技术涉及机器嗅觉
,更具体地,涉及一种物质气味留香值快速获取方法。
技术介绍
调香是一门古老的艺术,在现代调香科学诞生前,调香创作几乎完全依赖于调香师的经验以及灵感迸发,为了使调香技艺理论化,解释现有的调香作品以及推演指导调香创作,调香三值理论便应运而生,调香三值理论中的留香值,作用是区分不同物质气味的持久性,是体现物质气味保持时长的一个参数。现阶段,物质气味留香值的获取方式是通过人工嗅辩手段,根据气味在试纸上可以达到的最大保留天数来确定的。以人工嗅辨的方法获取留香值,耗时长、效率低、工序复杂,同时也易受到如测试环境、实验偏差、受试者敏感度和训练程度等多因素的影响,导致获取的留香值准确度不高;此外,如果需要获取大量化学物质的留香值,需要耗费大量时间和资源。公开号为CN109541138A公开日:2019-03-29提出的一种香水留香时间加速测试仪及操作方法,通过风扇增大香组分分子的挥发速度,从而实现快速测试香水的留香时间,但通过该方法测定的留香值难以和未加速的实际留香值精确换算,且经过加速后,气味浓度变化加快,使得对留香值判断受到受试者敏感度的影响更大,判断更不精确。因此,如何避免受到人工主观因素的影响,提高获取物质气味留香值的准确度,减少获取留香值的成本,是本领域亟需解决的技术问题。
技术实现思路
本专利技术为克服上述现有技术所述留香值测试受到人工主观因素的影响以及测试留香值成本高的缺陷,提供一种物质气味留香值快速获取方法,技术方案如下:一种物质气味留香值快速获取方法,包括步骤:S1、获取若干已测留香值的物质气味分子的物化特性数据;S2、对步骤S1获取的物化特性数据进行预处理,得到物化特性数据训练样本;S3、将所述物化特性数据训练样本输入初始随机森林模型进行模型训练,得到完成训练随机森林模型;S4、获取待测留香值的物质气味分子的物化特性数据;S5、对步骤S4获取的物化特性数据进行预处理,得到待测物化特性数据;S6、将所述待测物化特性数据输入所述完成训练随机森林模型,完成训练随机森林模型预测所述待测物化特性数据的留香值。上述技术方案通过物质气味样本训练随机森林模型,利用完成训练随机森林模型获取目标对象对应的留香值,相比于现有技术通过人工嗅辩气味在试纸上最大保留天数来确定留香值的方案,避免了测试环境、实验偏差、受试者敏感度和训练程度等诸多因素的影响,故能提高物质气味留香值判断的准确度,减少获取留香值的成本;此外,该方法直接根据物质气味分子的相关属性预测留香值,在需要获取大量目标对象的留香值时,可以节省大量时间和资源。进一步地,步骤S1和步骤S4中,获取所述物化特性数据包括步骤:S11、通过物质名称查询所述物质气味分子的CAS号;S12、使用所述CAS号查询所述物质气味分子的SMILES表达式;S13、通过化学分析软件计算所述SMILES表达式的物化特性数据。上述技术方案是根据查询到的公开资料分析物质气味的物化特性数据分子描述符,还可以通过GC-MS检测直接获取物质气味分子的物化特性数据。进一步地,步骤S2和步骤S5所述预处理包括步骤:S21、剔除所述物化特性数据中一部分含有缺失值的特征;S22、对步骤S21处理后的所述物化特性数据进行方差过滤;S23、对步骤S22处理后的所述物化特性数据进行标准化处理;S24、对步骤S23处理后的所述物化特性数据进行特征选择。进一步地,步骤S21剔除所述物化特性数据中含有缺失值大于50%的特征,并对剩余的含有缺失值的特征进行中值插补。进一步地,步骤S23所述标准化处理采用min-max标准化处理。进一步地,在步骤S2所述预处理过程中,步骤S24所述特征选择采用Boruta特征选择算法,包括步骤:S241、对所述物化特性数据中所有特征进行Shuffle得到阴影特征,将Shuffle后的阴影特征与物化特性数据的原始特征拼接成特征矩阵;S242、使用所述特征矩阵作为输入,训练初始随机森林分类模型输出feature_importance;S243、计算真实特征和阴影特征的Z_score;S244、在阴影特征中找出最大的Z_score记为Z_max;S245、将Z_socre大于Z_max的真实特征标记为"重要",将Z_score小于Z_max的真实特征标记为"不重要",并且将标记为"不重要"的真实特征标记从特征集合中永久剔除;S246、重复上述1~5步骤,直到所有特征都被标记为"重要"或者"不重要";在步骤S4所述预处理过程中,步骤S24所述特征选择是按照步骤S2经过Boruta特征选择算法保留的特征,对所述物化特性数据中的特征进行筛选。上述技术方案中,步骤S242所述feature_importance是指特征重要性:即每个特性对留香值的贡献度,也称特征贡献度。它以数值形式来表达,整体特征的贡献度和为1;所述Z_score是指每个特征重要性得分的标准差,所述标准差用作标准化单元处理,单个Z_score的计算方式为:Z_score=average_feature_importance/feature_importance的标准差。进一步地,步骤S3所述模型训练包括步骤:S31、将步骤S2预处理后的物化特性数据划分为训练集、验证集、测试集;S32、将所述训练集数据输入所述初始随机森林模型进行模型训练;S33、将所述验证集数据输入所述初始随机森林模型,寻找最佳的参数,得到完成训练随机森林模型;S34、将所述测试集数据输入所述完成训练随机森林模型,测试完成训练随机森林模型预测留香值的准确率。进一步地,步骤S32所述模型训练包括步骤:S321、用Bagging算法构建子训练集;S322、对于每个子训练集,生成一棵不剪枝的分类回归树,具体包括步骤:所述物化特性数据训练样本中共有m个特征,首先给定一个正整数s,使其满足m>s,对于每个内部节点,从m个特征中随机抽取s个特征作为该内部节点的候选特征,在生成整个分类回归树森林的过程中,s不变;然后从s个特征中选出最优的分裂方式对该节点进行分裂;并且使每棵树充分成长,不进行剪枝;S323、重复执行步骤S321和S322,直到生成n棵分类回归树;S324、将验证集输入模型,对所述初始随机森林模型进行参数优化,获得训练好的随机森林模型。进一步地,步骤S33所述参数包括ntrees和max_depth,其中ntrees表示随机森林中分类回归树的数量,max_depth表示分类回归树的深度;步骤S324中,所述验证集采用K折交叉验证法,对模型进行所述参数优化。进一步地,步骤S6中,预测所述待测物化特性数据的留香值包括步骤:S61、将未标记的物质气味留香值输入已训练好的随机本文档来自技高网...

【技术保护点】
1.一种物质气味留香值快速获取方法,其特征在于,包括步骤:/nS1、获取若干已测留香值的物质气味分子的物化特性数据;/nS2、对步骤S1获取的物化特性数据进行预处理,得到物化特性数据训练样本;/nS3、将所述物化特性数据训练样本输入初始随机森林模型进行模型训练,得到完成训练随机森林模型;/nS4、获取待测留香值的物质气味分子的物化特性数据;/nS5、对步骤S4获取的物化特性数据进行预处理,得到待测物化特性数据;/nS6、将所述待测物化特性数据输入所述完成训练随机森林模型,完成训练随机森林模型预测所述待测物化特性数据的留香值。/n

【技术特征摘要】
1.一种物质气味留香值快速获取方法,其特征在于,包括步骤:
S1、获取若干已测留香值的物质气味分子的物化特性数据;
S2、对步骤S1获取的物化特性数据进行预处理,得到物化特性数据训练样本;
S3、将所述物化特性数据训练样本输入初始随机森林模型进行模型训练,得到完成训练随机森林模型;
S4、获取待测留香值的物质气味分子的物化特性数据;
S5、对步骤S4获取的物化特性数据进行预处理,得到待测物化特性数据;
S6、将所述待测物化特性数据输入所述完成训练随机森林模型,完成训练随机森林模型预测所述待测物化特性数据的留香值。


2.根据权利要求1所述的一种物质气味留香值快速获取方法,其特征在于,步骤S1和步骤S4中,获取所述物化特性数据包括步骤:
S11、通过物质名称查询所述物质气味分子的CAS号;
S12、使用所述CAS号查询所述物质气味分子的SMILES表达式;
S13、通过化学分析软件计算所述SMILES表达式的物化特性数据。


3.根据权利要求1所述的一种物质气味留香值快速获取方法,其特征在于,步骤S2和步骤S5所述预处理包括步骤:
S21、剔除所述物化特性数据中一部分含有缺失值的特征;
S22、对步骤S21处理后的所述物化特性数据进行方差过滤;
S23、对步骤S22处理后的所述物化特性数据进行标准化处理;
S24、对步骤S23处理后的所述物化特性数据进行特征选择。


4.根据权利要求3所述的一种物质气味留香值快速获取方法,其特征在于,步骤S21剔除所述物化特性数据中含有缺失值大于50%的特征,并对剩余的含有缺失值的特征进行中值插补。


5.根据权利要求3所述的一种物质气味留香值快速获取方法,其特征在于,步骤S23所述标准化处理采用min-max标准化处理。


6.根据权利要求3所述的一种物质气味留香值快速获取方法,其特征在于,在步骤S2所述预处理过程中,步骤S24所述特征选择采用Boruta特征选择算法,包括步骤:
S241、对所述物化特性数据中所有特征进行Shuffle得到阴影特征,将Shuffle后的阴影特征与物化特性数据的原始特征拼接成特征矩阵;
S242、使用所述特征矩阵作为输入,训练初始随机森林分类模型输出feature_importance;
S243、计算真实特征和阴影特征的Z_score;
S244、在阴影特征中找出最大的Z_score记为Z_max;
S245、将Z_socre大于Z_max的真实特征标记为"重要",将Z_scor...

【专利技术属性】
技术研发人员:刘旗骆德汉温腾腾易海涛
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1