基于深度学习的烤烟分级研究与应用
本研究以标准的烤烟收购为场景,应用可见光谱技术结合深度学习算法构建面向6种烤烟类型的烤烟分级算法,目标为实现完全自动化烟叶定级。通过对机器分级技术的应用和推广,给烟叶分级整个流程带来了许多好处。其一,提高烟叶分级的工作效率。其二,减少烟叶收购活动中出现的纠纷数量和概率。其三,可以促进全社会烟叶分类过程的统一化,规范烟草收购市场,提升我国烟草行业的全球竞争力。
1 材料与方法
1.1 数据获取与预处理
1.1.1 烟叶样本选择
该项研究面向实际烟农与收购站交接的流水线,为提升落地实用的应用价值以及降低标定等级的繁琐性,最终采用了收购量集中(贡献率)最高的六个等级进行训练,分别为:C2F、C3F、C3L、B2F、B3F及X2F,所有收购烟叶通过青杂检测后,统一进行六分类的判别。采集对象为2021年山东省潍坊市洛庄烟站收购季烟叶,共采集6种合格等级的烟叶样本1.8TB左右的数据集。卷积神经网络模型的训练应提供足够多的样本,并且每种等级相当的样本集。
1.1.2 采集环境
数据采集中使用白板校正技术来降低客观因素导致的误差,将WhiteBoard的样本数据值作为基准项,对获取的高维数据进行基准归一化,由此降低由客观因素导致误差率提升的可能性。此外,本文提出的算法目标正是面对实际生产过程的烟叶分级,所以从模型的实用性出发,采集的样本以实际需求为目标,原始数据可表示为。
1.1.3 烟叶样本数据预处理
对于合格样本,返回的256段波长的高光谱数据。通过对高光谱数据的采集和处理,最终得到样本数据存储在RAW文件中,由Hdr文件定义输入数据的特性。且在该文件中具体列举了256个波段的具体范围,为385.60~1006.60均分的256段波段(含头尾)。
1.2 分级算法
本文提出基于卷积神经网络算法的,通过采集的高光谱数据,分别学习面向烟叶部位、烟叶颜色、烟叶等级的训练模型,构建高光谱数据与烟叶部位、烟叶颜色乃至烟叶等级的非线性映射关系。此处为预处理后得到的输入高光谱数据,为面向训练模型的部位、颜色和等级类别。
3 实验评估
实验依托山东省潍坊市下属烟叶收购站,利用高光谱显像仪,在收购对算法进行实际验证。经过数据预处理的数据集总共包括六种级别烟叶(B2F、B3F、C2F、C3F、X2F、C3L),采集的全部烟叶样本数据中80%数据进行模型训练,20%数据进行模型测试。
3.1 分级算法性能评估
对比同类型参考文献,在同样获取全光谱信息的前提下,如表1所示,本文提出的模型在损失、准确率上稍显突出,比对类型主要有四类:一、基于传统的模糊识别准则;二、基于统计学的数据挖掘算法;三、BP神经网络;四、三通道输入的卷积神经网络。通过以上实验结果来看,加权准确率居于97.5%附近,烟叶分级要求经过对上中下三个部位的烟叶验证,机器识别与专家识别的一致率大于80%,而本文研究结果远超于国家基准,具有可观的探究价值。同时,最重要的一点在于,本文的研究面向实际生产应用,采集的烟叶图像均为连串杂糅状态,以投入烟叶收购生产使用为目的,相比于理想实验环境下对单烟叶探究的分级算法来说更有落地应用的说服力。在实际烟叶收购过程中,算法模型分级预测平均执行时间在7s以内,满足高效的烟叶收购需求。
表1 不同烟叶分级方案正确率比较
算法
|
平均正确率 /% |
基于NIR技术和ELM的烤烟烟叶自动分级[7] |
93.51% |
基于机器视觉的烟叶分级[2] |
92.00% |
基于智能识别技术的烟叶分级技术[4] |
95.45% |
基于聚类和加权K近邻的烟叶分级研究[8] |
93.69% |
基于PCA-GA-SVM的烟叶分级方法[13] |
95.56% |
基于图像特征的烟叶分级[3] |
91.00% |
基于ANN分类器的烟叶分级[14] |
95.04% |
基于BP算法的烟叶分级[5] |
84.76% |
基于机器视觉与深度学习的烟叶定级研究[15] |
93.05% |
本文模型 |
97.54% |
表1中算法准确率是1000次的平均准确率值,相比其他算法,准确率提升比例依次为4.5%,6%,2.2%,4.1%,2.1%,7.2%,2.6%,15.1%,4.8%,性能提升均超过2%,证明本文提出算法是有效的、可行的。基于1000次的统计结果,利用本文算法和次高算法进行统计学显著性分析,即t-Tests,p值小于0.005。以上结果验证了本文提出算法能够有效地改进算法分类结果的准确率。
为验证部分类别预测准确率,基于本文算法,对4种烟叶等级(C2F、C3F、X2F、C3L)的进行烟叶颜色、烟叶部位和烟叶最终等级模型训练,训练准确率和测试准确率如表2所示:
表2 4种烟叶分级方案正确率比较
算法
|
训练准确率 /% |
测试准确率 /% |
烟叶部位模型 |
99.78% |
97.11% |
烟叶颜色模型 |
99.82% |
97.94% |
本文模型 |
99.71% |
97.05% |
其中测试样本数1732个,训练样本数6928个。烟叶模型在部位、颜色的训练和测试准确率均都超过97%。因此,利用融合烟叶部位、烟叶颜色和烟叶初始等级的烟叶定级策略在提高烟叶部位、颜色的准确率的同时,提高了烟叶整体定级准确率。
基于提出的融合烟叶颜色和部位的烟叶定级算法,将采用全部6种烟叶等级(B2F、B3F、C2F、C3F、X2F、C3L)的所有数据集进行烟叶颜色、烟叶部位和烟叶最终等级模型训练,训练准确率和测试准确率如表3所示:
表3 6种烟叶分级方案正确率比较
算法
|
训练准确率 /% |
测试准确率 /% |
烟叶部位模型 |
98.88% |
98.08% |
烟叶颜色模型 |
99.91% |
98.63% |
本文模型 |
98.77% |
97.54% |
其中测试样本数2854个,训练样本数11420个。烟叶模型在部位、颜色的训练准确率均都超过98%,测试准确率均超过97%。随着数据集和烟叶类别的增加,烟叶部位和烟叶颜色模型训练准确率在99%左右,且测试准确率也都超过98%,和4种等级的烟叶颜色和部位预测基本持平。随着数据集规模增加,本文模型相比4种烟叶等级预测准确率有所提升,都超过了97%。因此,在全部数据集规模下,利用融合烟叶部位、烟叶颜色和烟叶初始等级的烟叶定级策略在提高烟叶定级准确率的方案是切实可行的。
3 讨论
基于图像处理方法和卷积神经网络算法,借助烟叶的高光谱数据对烟叶进行分级。同时仿效国家标准进行部位、颜色、叶片质量三层定级,叶片部位分别为下部(X)、中部(C)、上部(B),颜色分别为桔黄色(F),柠檬黄色(L)等等,质量等级依据多大致维线索分为1到4级。分步分级的重要性非常大,拿部位来说,不同部位的烟叶由于生长条件不同,形状特征从表面上看是有明显区别的。总体变化规律为:下部烟叶较宽圆;中部烟叶宽至较宽,叶尖较钝;上部烟叶较窄,叶尖较锐。但是若和颜色信息进行组合,会得到不同部位不同颜色反馈相同结果,由此,总体分级方案为先分“类型”,后分“组”,最后根据每个组内烟叶质量的好坏划分成几个不同的“级”,每一级的划分通过卷积神经网络算法实现。
根据分级员经验和视觉检测技术要求,采用多次分级的方式,先处理叶片图像划分叶片部位,其次通过相同高光谱图像划分颜色属性,最后根据输入的多维数据集判别烟叶的质量等级,这三者共同构成最终烟叶等级,如B2F,B为上部烟叶,F为桔黄色,2为质量等级。该措施最直观的作用在于分级的条理性,级与级之前无交集。根据参考文献中关于烟叶分级的多数应用实例来看,集所有属性转化为多维数据进行一次性定级的方案占多数,这种做法导致最大的问题在于级与级之中存在大范围的交界区域,更容易因技术错误导致等级的误判,同时若落地于工业流水线,将大大模糊化同等级情况下不同部位或颜色的烟叶差别,不利于烟农与收购站定价。
针对单片烟叶或具有明显可分割特征的多片烟叶,使用图像处理技术和卷积神经网络(CNN)的烟草分级算法,能够达到较高的烟叶定级。Li等研究了基于深度学习方法的41种烟叶图像分类算法,在样本数量较少的情况下,将迁移学习应用于经典的VGG16网络模型,并对VGG16网络结构进行微调,模型的精度达到91.26%,比原模型高1.25%。Luo等提出了一个简单的烟草图像分类框架,融合了表观特征和低维深度特征,使用改进的AlexNet网络传递较浅的卷积特征,通过主动硬样本挖掘对网络进行微调,与单纯的表观特征或深度特征相比,融合表观特征和深度特征可以提高烟草分级的准确性。赖福长等公开了一种基于人工智能的烟叶等级快速识别装置,能快速识别烟叶等级。以上研究针对的是单片烟叶的定级策略,无法满足实际烤烟收购的批量检测的需求。
同时,考虑到化学成分决定烟叶的品质,光谱特性能够很好地反映烟叶化学成分的含量。通过分析B2F、C3F、X2F 3个烟叶等级与其主要化学成分的关系,利用多类logistic回归模型探讨不同化学成分对烟叶品级影响的差异,发现总生物碱、总氮、还原糖、总糖、钾和淀粉对烟叶等级有显著影响,利用多通道高光谱相机,为烟叶定级提供了数据支撑。
为解决大样本训练问题、实现参数简易可调以及满足实际收购需求等问题,利用卷积神经网络实现烟叶分级,本文研究样本使用连串杂糅烟叶,面向工业流水线收购,直接采集不规则合并单层烟叶进行烟叶的分部位、分颜色的烟叶定级策略。
4 总 结
本文基于深度学习算法深入研究烟叶定级的智能化和数字化,摒弃了效率低且主观因素强的人工分级技术,通过机器识别技术和深度学习算法进行自动化智能分级,最终达到提高烟叶分级工作效率,减少人工损耗,增强定级精度的效果。目前,烟叶分级的自动化和智能化以及越来越成熟,并且已有少数烟叶收购站引入自动分级技术进行烟叶收购活动。此项技术落地应用之后将显著性提高我国烟叶分级效率,节省人力及雇佣成本,对烟叶农产品分级的标准化有重要的正向意义。