彭旭东1,夏士明1,孙吉明2
(1. 解放军理工大学气象海洋学院,南京,211101 ;2. 空军航空大学航理系,长春,130022)
摘要:通过实验发现SVM 多分类(导向无环图)对于不同场景的天气类别识别能力较弱,而以随机森林为弱分类器构成的AdaBoost 强分类器能有效提高对不同场景的识别能力。基于此,本文最终提出了基于视频的天气类别自动识别分类器的设计。
关键词:天气类别;AdaBoost ;SVM
Development of A Video-based Weather Category Automatic Recognition Classifier
Peng Xudong1,Xia Shiming1,Sun Jiming2
(1.Institute of Meteorology and Oceanography,PLA University of Science and Technology,Nanjing,211101;
2.Department of Aviation Theory,Aviation University Air Force,Changchun,130022)
Abstract :It was found that the skill of SVM multi-classification (directed acyclic graph)for different scenarios of weather categories was weak,but AdaBoost strong classifier based on random forest weak classifier can effectively improve the ability to recognize different scenarios.Above all,this paper proposed a video-based weather category automatic recognition classifier.
Keywords : Weather recognition;AdaBoost;SVM
天气类别识别属于有监督的学习问题。常用的有监督分类器有支持向量机(SVM)和AdaBoost。常见的天气类别包括晴、多云、阴、雾、雨、雪等,因此本文的基于视频的天气类别识别是一个有监督的多分类问题。
1 AdaBoost 分类器
目前,基于视觉的天气类别研究主要采用SVM 作为分类器。但SVM 对于不同场景的天气类别识别能力较弱。而以随机森林为弱分类器构成的AdaBoost 强分类器能提高对不同场景的识别能力。
AdaBoost 强分类器是由多个弱分类器构成,每个弱分类器会按照既定规则选择部分样本构成训练集进行训练,因此每个训练样本都被赋予权重,以表明它被某个弱分类器选入训练集的概率。如果某样本点已经被准确地分类,那么在构造下一个训练集时,它被选中的概率将降低;相反,如果某样本点没有被正确分类,那么它的权重就将提高。通过该种方式,AdaBoost 方法能够聚焦于那些较难区分的样本上。
2 验证方法
为了验证方法的正确性,本文在主频为2.9GHz,内存为8GB 的PC 机上,采用Matlab2009a 进行了分类识别实验。实验数据为本文采集的视频数据,通过对视频数据进行采样得到图像序列。每组图像序列包含时间、天气类别、场景信息以及气象要素信息。
在进行学习训练的过程中,将数据集按时间划分,即将每类天气下的数据按时间排序好,选择前面部分样本作为训练样本,将剩下的部分数据作为测试样本,主要是为了研究不同时段下的分类识别。因此本文的实验主要是研究不同分类器对相同场景的数据的区分能力。
3 验证结果
首先直接采用SVM 多分类器对天气类别进行分类。将训练样本集按时间排列,选择前一半采用不同核函数进行学习,后一半用于测试,从而找出效果最好的核函数。SVM 多分类结果如表1 所示,分别为SVM 一对多、SVM 一对一、SVM 导向无环图和SVM 二叉树的分类效果,可以看出SVM 一对一和SVM 导向无环图的方法要明显优于SVM 一对多的方法。一对一与导向无环图在本质上
表1 SVM 多分类的识别结果5
设计与研发
2016.10
是一致的。导向无环图是在一对一的基础上,让所有的两分类器按照一定方向进行排列,这样可以使得判别结果更公正。一对一是通过对所有两分类器进行判断,统计哪个类别出现的次数最多,有可能出现多个类别出现次数相同,这样就很难判断属于哪一类天气类别,而导向无环图可以克服这个不足。由于二叉树的性能取决如何构造二叉树,而二叉树的构造可人为设定也可以根据距离最大或最小原则构造,人为设定缺乏客观性,根据距离最大或最小原理稳定性较差,因此本文重点研究导向无环图。
为了比较SVM 多分类(重点研究导向无环图)与AdaBoost 强分类器的效果,以及AdaBoost 强分类器(多棵决策树)是否的确比单棵决策树(CART)的效果要好。分别采用SVM 导向无环图、CART(单棵决策树)和AdaBoost RF(随机森林为弱分类器, 由很多棵决策树构成)作为分类器对相同场景进行学习训练,识别结果如表2 所示。可以看出SVM 导向无环图的识别率最高,另外AdaBoost RF 的分类效果比CART 多分类效果要好,表明对于本文的数据,强分类器的效果要优于弱分类器。因此,对于相同场景,本文采用SVM 导向无环图作为分类器,可提高识别准确率。
文献[2] 中采用wild 数据库进行单一场景的分类实验,实验中只有一个场景。wild 天气类别数据库包含白天夜晚各个整点的图像数据,图像数据中涵盖不同天气、不同季节的数据,每个图像数据有对应的时间、天气类别、光照条件、风向风速、能见度、温度、相对湿度等信息,共录制了一年的数据。文献[2] 采用wild 图像数据库,对常见的天气类别进行自动识别研究,其识别结果如表3 所示。
本文场景较多,训练样本和测试样本都包含相同数目的场景,采用SVM 导向无环图进行识别结果如表4 所示。与表3 相比, 可以看出本文场景较多(训练分类都采用多个相同场景),识别类别较多(可以对五类天气类别进行识别),准确率较高(每类天气类别的识别率都可达90% 以上)。因此,如果测试样本的场景与训练样本场景相同,采用SVM 多分类器(导向无环图)进行测试的效果较好。
4 结论
通过实验发现SVM 多分类对于不同场景的天气类别识别能力较弱,而以随机森林为弱分类器构成的AdaBoost 强分类器能有效提高对不同场景的识别能力。基于此,本文最终提出了基于视频的天气类别自动识别分类器的设计。
参考文献
[1] Wu X, Kumar V, Quinlan J R, et al. Top 10 algorithms in data mining[J]. Knowledge and information systems, 2008, 14(1): 1-37.
[2] Li Q, Kong Y, Xia S. A method of weather recognition based on outdoor images[C]//Computer Vision Theory and Applications (VISAPP), 2014 International Conference on. IEEE, 2014, 2: 510-516.
[3] Burton G J, Moorhead I R. Color and spatial structure in natural scenarios[J]. Applied Optics, 1987, 26(1): 157- 170.
表2 相同场景下各分类器识别结果
表3 文献[2] 采用wild 数据库识别结果
表4 本文数据识别结果6