一种基于烟叶致香成分的多模型评价烟叶原料相似度的方法技术

技术编号:15327135 阅读:110 留言:0更新日期:2017-05-16 11:12
本发明专利技术涉及一种基于烟叶致香成分的多模型评价烟叶原料相似度的方法,属于烟草技术领域。本发明专利技术的方法是通过蒙特卡洛无放回采样,随机选取一定比例的样本作为训练集,剩下的样本作为模型内部验证集;建立多个基于烟叶致香成分含量的主成分模型;利用内部验证集样本对模型的有效性进行验证;将新烟叶原料的致香成分数据输入经验证有效的主成分模型,计算样品在多个模型中的马氏距离,对生成的马氏距离数据组进行分析,评价新的烟叶原料与原料库中烟叶原料的相似度。本发明专利技术与一次建模计算相似度方法相比较,更能充分提取所有样品致香成分数据信息,也更能兼顾原料库中烟叶样品致香成分含量的差异性数据信息。

A multi model method for evaluating similarity of tobacco raw materials based on aroma components of tobacco leaves

The invention relates to a method for evaluating the similarity of tobacco leaf raw materials based on the tobacco flavoring component, which belongs to the technical field of tobacco. The method of the invention is not put back by Monte Carlo sampling, a certain percentage of the samples were randomly selected as the training set, the rest of the sample as a model of internal validation set; the establishment of a number of principal component model based on the contents of aroma constituents of tobacco samples; the validity of the model is verified by internal validation; the new tobacco raw materials by aroma components of data input verification by principal component model, the calculation samples in different models the Mahalanobis distance, the Mahalanobis distance data analysis, similarity evaluation of raw tobacco new tobacco raw materials and raw materials in the library. Compared with the similarity calculation method of the primary modeling, the present invention can fully extract the data information of the aroma components of all the samples, and can also take into account the differential data information of the content of the aroma components of the tobacco leaves in the raw material storehouse.

【技术实现步骤摘要】
一种基于烟叶致香成分的多模型评价烟叶原料相似度的方法
本专利技术涉及一种基于烟叶致香成分的多模型评价烟叶原料相似度的方法,属于烟草
具体是以某一品牌卷烟涉及烟叶原料的致香成分为基础数据,通过构建烟叶原料相似度多模型评价体系,实现新烟叶原料与原库中烟叶原料相似度评价,为挑选合适烟叶进入原料库,维护烟叶原料库供需平衡,保持同一品牌卷烟的风格特征提供辅助信息。
技术介绍
面对国内外烟草消费市场的新形势,“卷烟上水平”已成为我国烟草行业发展的基本方针和战略任务。“卷烟上水平”就必须保证烟叶原料供应上水平,以品牌为导向的烟叶原料配置在烟叶原料供应上水平中发挥着重要的作用。品牌导向的烟叶原料配置就需要为同一品牌的卷烟配置特用的烟叶原料库。当烟叶库存用完,进行烟叶原料替代时需要选择与替代样品感官评吸相似度高,又与其它烟叶原料的感官相似度高的烟叶样品,以保持同一品牌卷烟在抽吸风格特征上的一致性。烟叶致香成分的种类和含量是卷烟风格特征的物质基础。中国专利CN201210388661采用卷烟的致香物含量进行逐步回归分析,建立了卷烟香型的定量化判定标准。中国专利CN201310551840通过对烟叶特征化学指标的筛选和取舍,然后进行主成分计算,建立了烟叶风格特征TQ的计算公式。上述两个专利揭示了烟叶致香成分在保持卷烟风格特征方面发挥着重要作用。因此如何保持新挑选的烟叶原料必须与原料库中烟叶原料在致香成分含量整体性上较高的相似度就显得尤为重要。中国专利CN200810030798基于烟叶的化学成分,采用主成分分析和马氏距离搜索评价相似烟叶。中国专利CN201210344034基于烟叶的近红外信息,采用主成分分析和马氏距离判定相似烟叶样品,辅助卷烟配方。上述两个专利揭示了主成分分析能从整体性上较好的揭示多维烟草化学成分分析的整体性信息,马氏距离能有效的计算两个未知样本集的相似度。以上技术中,采用一次建模的主成分分析和马氏距离计算和评价烟叶样本相似度,存在以下不足:由于主成分模型中各样本间存在一定的差异性,将所有样品进行一次性建模难以排除与其它样品差异性较大的个别样品对主成分分析模型整体性的影响。一次性建模所采用的训练集难以完全代表所有样本的总体信息。蒙特卡洛采样是一种无放回采样,也称刀切法(Jackknife),机选取一定比例的样本作为训练集,剩下的样本作为独立测试集。进行蒙特卡洛采样时需要设定采样次数、训练集和内部验证集样品个数的比例划分。蒙特卡洛采样能较好兼顾数据的整体性信息和差异性信息。马氏距离的计算公式:,式中:为平均得分矩阵,为马氏矩阵M的逆矩阵,。为样本集中i样本的得分矢量,为i样本的马氏距离。
技术实现思路
本专利技术的目的在于建立一种基于烟叶致香成分的多模型评价烟叶原料相似度的方法。本专利技术的意义在于:弥补一次建模的不足,使烟叶原料相似度评价更加科学和合理。本专利技术的方法是通过蒙特卡洛无放回采样,随机选取一定比例的样本作为训练集,剩下的样本作为模型内部验证集;建立多个基于烟叶致香成分含量的主成分模型;利用内部验证集样本对模型的有效性进行验证;将新烟叶原料的致香成分数据输入经验证有效的主成分模型,计算样品在多个模型中的马氏距离,对生成的马氏距离数据组进行分析,评价新的烟叶原料与原料库中烟叶原料的相似度。为实现上述目的,本专利技术采用的技术方案如下:基于某一品牌卷烟现在使用的烟叶原料,构建以卷烟品牌为导向的烟叶原料库,对原料库中某待替换的烟叶进行多次代表性取样,取样次数为N,每次取1个样品;之后,对取样得到N个烟叶样品采用同时蒸馏萃取-气相色谱/质谱联法测定其致香成分含量;同时蒸馏萃取-气相色谱/质谱联法)参照王玉等发表《卷烟挥发性成分的聚类分析》文章方法测定其致香成分含量。所测得的烟叶样品致香成分含量数据输入Matlab软件中构成基础数据矩阵;基于基础数据矩阵,设定蒙特卡洛采样参数:采样次数为N/3、训练集样本个数为①中所取得样品个数的80%、内部验证集样本个数为①中所取得样品个数的20%。根据设定好的参数,在Matlab软件采用蒙特卡洛采样方法采样,划分得到N/3个主成分模型训练集和对应的内部验证集。对N/3个主成分模型训练集进行主成分分析,构建主成分模型,并将对应的内部验证集样本数据输入构建好的主成分模型中,计算各内部验证集样本的马氏距离。主成分模型内部验证有效性的判定规则为:所有内部验证样本在主成分模型中计算得到马氏距离的最大值不得超过2为有效,否则为无效。该规则用于排除原料库中致香成分含量与其它样品差异较大的样品对整个主成分模型易产生偏差造成的影响。根据中的判定规则,判定建立的N/3个主成分模型的有效性,得到有效的主成分模型。将M个需要评价的新烟叶原料致香成分数据输入中验证有效的主成分模型,分别计算马氏距离,组成M个马氏距离数据组。计算需要评价烟叶原料马氏距离数据组的平均值和标准偏差。比较不同样品中计算得到的马氏距离的平均值和标准偏差的大小,根据验证样品相似度评价规则对样品的相似度进行对比评价。验证样品相似度评价规则:(1)以马氏距离平均值小的样品判定为相似度高;(2)当两样品马氏距离差值小于或等于±0.05时,以标准偏差小的样品判定为相似度高。本专利技术方法的流程图1所示。本专利技术与现有技术相比,其有益效果为:(1)较一次建模计算相似度,选取所有样品进行分组主成分分析,建立多模型计算烟叶原料相似度方法,更能充分提取所有样品致香成分数据信息。(2)较一次建模计算相似度,将样品进行不同组合后进行主成分分析,建立多模型计算烟叶原料相似度方法,更能兼顾原料库中烟叶样品致香成分含量的差异性数据对整体数据信息的影响。(3)采用同一训练集中的不同子集建立多个模型同时进行预测,将多个预测结果通过简单平均作为最终的预测结果,可获得更高的预测精度和稳定性。附图说明图1为本专利技术方法的流程图。图2为实施例1中第1个验证有效主成分模型主成分得分图。图3为实施例1中9个相似度评价样本的马氏距离分布图。具体实施方式下面结合实施例对本专利技术作进一步的详细描述。本领域技术人员将会理解,下列实施例仅用于说明本专利技术,而不应视为限定本专利技术的范围。实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过购买获得的常规产品。实施例1以2014年9个云南地区烟叶与市售某品牌卷烟原料库中某待替换烟叶取样得到的60个烟叶样品的相似度评价为例进行说明。(1)采用同时蒸馏萃取结合气相色谱/质谱联用仪(GC/MS)参照王玉等发表《卷烟挥发性成分的聚类分析》文章方法测定9个云南地区烟叶及市售某品牌卷烟原料库中某待替换烟叶取样得到的60个烟叶样品的致香成分含量,致香成分信息如表1所示。表1烟叶原料中致香成分信息(2)将步骤(1)中测得的60个烟叶样品的致香成分含量数据导入matlab软件中,构成基础数据矩阵。(3)设定采样次数为20,采用蒙特卡洛采样方法,得到20个主成分模型训练集及对应的内部验证集。每个训练集样本个数48,内部验证集样本个数为12。(4)分别对20个主成分模型训练集进行主成分分析,构建得到20个主成分模型;之后将与构建主成分模型所用的训练集对应的内部验证集的样本输入该主成本文档来自技高网
...
一种基于烟叶致香成分的多模型评价烟叶原料相似度的方法

【技术保护点】
一种基于烟叶致香成分的多模型评价烟叶原料相似度的方法,其特征在于,包括如下步骤:步骤(1),基于某一品牌卷烟现在使用的烟叶原料,构建以卷烟品牌为导向的烟叶原料库,对原料库中某待替换的烟叶进行多次代表性取样,取样次数为N,每次取一个样品;之后,对取样得到N个烟叶样品采用同时蒸馏萃取‑气相色谱/质谱联法测定其致香成分含量;步骤(2),将步骤(1)所测得的烟叶样品致香成分含量数据输入Matlab软件中构成基础数据矩阵;步骤(3),基于步骤(2)构成的基础数据矩阵设定蒙特卡洛采样参数:采样次数为N/3、训练集样本个数为步骤(1)中取得样品个数的80%、内部验证集样本个数为步骤(1)中取得样品个数的20%;根据设定好的参数,在Matlab软件采用蒙特卡洛采样方法采样,得到N/3个主成分模型训练集和对应的内部验证集;步骤(4),对N/3个主成分模型训练集进行主成分分析,构建主成分模型,并将对应的内部验证集样本数据输入构建好的主成分模型中,计算各内部验证集样本的马氏距离;步骤(5),根据主成分模型内部验证有效性判定规则,判定建立的N/3个主成分模型的有效性,得到有效的主成分模型;步骤(6),将M个需要评价的新烟叶原料的致香成分数据输入步骤(5)中得到的有效的主成分模型,分别计算马氏距离,组成M个马氏距离数据组;步骤(7),计算步骤(6)中各个马氏距离数据组的平均值和标准偏差;步骤(8),对步骤(7)中计算得到的所有的马氏距离的平均值和标准偏差的大小进行比较,根据验证样品相似度评价规则对M个需要评价新烟叶原料与待替换叶的相似度进行评价,取相似度最高的新烟叶原料替换待替换叶。...

【技术特征摘要】
1.一种基于烟叶致香成分的多模型评价烟叶原料相似度的方法,其特征在于,包括如下步骤:步骤(1),基于某一品牌卷烟现在使用的烟叶原料,构建以卷烟品牌为导向的烟叶原料库,对原料库中某待替换的烟叶进行多次代表性取样,取样次数为N,每次取一个样品;之后,对取样得到N个烟叶样品采用同时蒸馏萃取-气相色谱/质谱联法测定其致香成分含量;步骤(2),将步骤(1)所测得的烟叶样品致香成分含量数据输入Matlab软件中构成基础数据矩阵;步骤(3),基于步骤(2)构成的基础数据矩阵设定蒙特卡洛采样参数:采样次数为N/3、训练集样本个数为步骤(1)中取得样品个数的80%、内部验证集样本个数为步骤(1)中取得样品个数的20%;根据设定好的参数,在Matlab软件采用蒙特卡洛采样方法采样,得到N/3个主成分模型训练集和对应的内部验证集;步骤(4),对N/3个主成分模型训练集进行主成分分析,构建主成分模型,并将对应的内部验证集样本数据输入构建好的主成分模型中,计算各内部验证集样本的马氏距离;步骤(5),根据主成分模型内部验证有效性判定规则,判定...

【专利技术属性】
技术研发人员:高锐杨威宋鹏飞王毅李文均李艳琼肖敏张光煦马迅
申请(专利权)人:云南中烟工业有限责任公司
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1