作 者 信 息
梁 超,刘建强,邹亚荣,张 茜,崔松雪,杨 典,朱丽英
1.自然资源部 国家卫星海洋应用中心,北京 100081;2.自然资源部 空间海洋遥感与应用研究重点实验室,北京 100081
【摘要】基于江苏省连云港市赣榆区GF-1B卫星数据,经预处理后进行面向对象分割,建立土地利用类型分类体系,构建样本集并训练随机森林(Random Forest,RF)分类模型,开展研究区土地利用类型遥感提取试点应用分析。结果表明:本文方法总体分类精度85.73%、Kappa系数0.82,总体分类质量较好;各土地利用类型中,耕地、园地、林地、水域等类型分类精度较高,城镇工矿用地等建设用地分类精度略低;基于高分数据的RF模型分类方法可满足滨海城镇土地利用遥感调查任务技术需求。
【关键词】GF-1B;土地利用;随机森林(RF);面向对象
【中图分类号】P237
【文献标识码】A
【文章编号】1672-1586(2022)05-0106-06
引文格式:梁 超,刘建强,邹亚荣,等.基于RF模型的滨海城镇土地利用高分遥感提取分析[J].地理信息世界,2022,29(5):106-111.
正文
0 引 言
“十三五”以来,我国新型城镇化建设取得重大进展,城镇化水平和质量大幅提升。2014年,我国出台首个新型城镇化规划《国家新型城镇化规划(2014—2020年)》,2022年6月7日,国务院发布《国务院关于“十四五” 新型城镇化实施方案的批复》,原则同意《“十四五” 新型城镇化实施方案》,这标志着我国新型城镇化迈入新的发展时期。新型城镇化发展明确要求优化城镇空间布局和形态,因此城镇土地利用的科学、合理、高效、有序是新型城镇化建设的基本保障。
利用卫星遥感技术开展土地利用信息提取已有几十年时间,早期主要以人工目视解译为主,所采用的卫星数据以Landsat等中等分辨率为主,土地利用类型相对简单,侧重自然地表覆盖类型的遥感监测。随着高分辨率卫星数据的普及,尤其是国产高分系列卫星的成功发射,降低了高分辨率卫星数据使用成本和国外依赖,高分辨率卫星影像因其空间微尺度信息观测优势,可以获取更为丰富和准确的土地利用类型信息,可直接用于城镇土地利用类型遥感监测,服务于城镇土地利用规划以及实施效果的监测评估等任务。滨海城镇因其特殊的地理位置优势,经济发展快速,地貌兼具海洋和陆地特点,较之内陆城镇,其土地利用类型丰富、变化较快,对遥感快速动态监测能力具有更高要求,传统人工目视解译方法无法满足土地利用动态更新监测需求。近年来,随着机器学习技术的飞速发展,遥感影像信息智能提取方法已成为主流方向,其中,随机森林(RF)模型因其鲁棒性好、可应用性范围广等特点得到了广泛应用,显著提升了传统遥感影像分类技术手段和结果精度。
本文以国产高分一号卫星为主要数据源,开展 RF模型在滨海城镇土地利用遥感信息提取中的应用过程分析,探讨模型的适用性及实际应用中存在的典型技术问题,为滨海地区土地利用遥感智能解译与信息提取技术发展和行业应用提供参考。
1 研究区概况
本文研究区为江苏连云港市赣榆区(图1),总面积约1474km²,地处鲁东南低山丘陵与苏北黄淮海平原交接地带,北纬34°50'~35°07',东经118°45'~ 119°18',是江苏的北大门。赣榆区生态环境优越,气候宜人,人文环境独特,文化底蕴深厚,下辖15个镇、两个省级开发区、1个赣榆海岸和1个园艺场,拥有丰富的非金属矿产资源,近海渔场、滩涂等海洋资源丰富,具备优质的区位、港口和资源优势。赣榆区在《连云港市赣榆区土地利用总体规划(2006—2020年)调整方案》中,阐明了规划期内各镇土地利用方向,提出构建功能分明的土地利用空间格局,形成布局合理的城镇发展格局。
图 1 研究区位置示意图
Fig.1 Location of the study area
2 数据与方法
2.1 卫星数据
本文采用高分一号卫星数据开展试点应用研究,高分一号及后续发射的高分一号B/C/D星,主要搭载PMS传感器,数据融合后分辨率为2m,可用于1∶5万比例尺遥感专题图制作,满足城镇土地利用规划制定、土地利用现状遥感监测等业务需求。GF-1B卫星主要技术指标见表1。
表 1 GF-1B 卫星主要技术指标
Tab.1 The main technical indicators of GF-1B satellite
根据研究区卫星过境时间、云覆盖等,本文选取2021年4月19日、5月30日过境的3景GF-1B PMS L1A级卫星数据,经预处理后开展面向对象的影像分割,根据土地利用类型构建样本集,建立并训练RF模型,开展模型分类及精度验证,最终制作赣榆区土地利用遥感信息专题图。图2为总体技术路线。
图 2 总体技术路线
Fig.2 The research flow chart
2.2 高分数据预处理
本文对GF-1B PMS数据的预处理主要包括辐射定标、大气校正、正射校正、影像融合、影像裁切等过程。辐射定标使用中国资源卫星应用中心网站发布的 2021年国产陆地观测卫星外场绝对辐射定标系数,将影像DN值转换为辐亮度;大气校正采用QUAC快速大气校正工具;正射校正采用基于影像自带RPC参数的有理函数模型;影像融合采用NDDiffuse pan sharpening融合方法。预处理后数据经研究区范围矢量裁切后(图3)用于后续的土地利用信息遥感提取。
图 3 预处理后的 GF-1B 遥感影像图
Fig.3 The image of GF-1B satellite data
2.3 研究区土地利用分类体系
为研究方便,本文参考《乡(镇)土地利用总体规划编制规程》(TD/T 1025-2010)、《土地利用现状分类》(GB/T 21010-2017)、《第三次全国国土调查技术规程》(TD/T1055-2019)等标准规范,结合研究区土地利用总体格局及遥感可解译性等因素,将研究区土地利用类型划分为3个一级类、8个二级类,具体见表2。
表 2 研究区土地利用类型分类体系
Tab.2 Classification system of land use types in the study area
2.4 Meanshift 对象分割
传统的基于像元的遥感影像分类主要依据地物光谱特征,同物异谱、异物同谱现象的存在制约着影像分类精度,且一般情况下分类结果会存在所谓的“椒盐现象”。基于对象的分类方法可以同时利用地物的光谱信息及空间分布信息,有利于提高分类精度。
本文采用均值漂移(Meanshift)算法进行对象分割,Meanshift是一种特征空间域分析方法,其通过在光谱域、空间域中对像元进行聚类,通过不断迭代计算像元漂移均值,把收敛到同一起始点的像元归为一类,从而达到影像分割的目的。Meanshift算法主要参数包括光谱详细级别(spectral_detail)、空间详细级别(spatial_detail)、最小分割大小(以像元为单位)、分割采用的波段组合等,其中光谱详细级别、空间详细级别分别代表了像元的光谱差异性、空间邻近性在分割中的重要程度,值越大分割越细致,值越小分割越平滑。波段组合的选择主要依据待分割影像中主要地物特征,如植被覆盖范围较大,则选择假彩色组合较好。
Meanshift 分割算法中光谱参数对分割效果影响最大,经反复测试,光谱详细级别小于15.5时,建筑可被分割识别,但无法有效分割植被、水体等类型。如图4所示,本例中采用标准假彩色波段组合分割效果明显优于真彩色波段组合。此外,随着空间详细级别的增大,更大范围内的近似地物被合并为同一图斑。因此,为了最大程度利用不同土地利用类型的光谱信息,同时减少空间邻近性造成的类别过度合并,最大限度保留原始地类空间分布信息,本文实际分割时设定光谱详细级别为20,空间详细级别为1。
图 4 不同波段组合与分割参数的 Meanshift 分割结果对比
Fig.4 Comparison of Meanshift segmentation results with different combinations of bands and segmentation parameters
2.5 构建样本集
样本集的质量直接影响模型分类精度,本文以多光谱影像目视判读为主要依据,直接在分割对象图斑上勾绘各土地利用类型样本区。样本集构建符合全面型、典型性、均匀性等原则,保证同一样本区内部像元土地利用类型相对一致,不同样本区之间土地利用类型没有交叉。
2.6 RF 分类模型
随机森林(Random Forest,RF)算法是一种重要的基于 Bagging 的集成学习方法,最早由 BREIMAN 等人提出,本质是对决策树算法的一种改进,通过随机生成多个决策树,采用自助法(Bootstrap)重采样技术,每个决策树从训练样本集中重复随机抽取m个样本,随机挑选k个特征,进行训练,所有决策树分类结果投票形成最终分类结果。RF模型具有算法精度高,可以处理大数据集、无需对特征变量进行删减,可以对特征变量给出重要性估计,可有效处理缺失数据,不容易产生过拟合,泛化能力强等诸多优点,广泛应用于分类、回归等问题中。
本文RF模型主要参数中,分类树数量为100,每棵树节点深度为50,训练样本特征包括对象分割后数据的3个波段、预处理后多光谱数据的4个波段以及对象图斑的颜色(Color)、大小(Size)、均值(Mean)、标准差(STD)、 紧 致 度(Compactness)、 矩形度(Rectangular)等特征属性。其中,紧致度C表示对象图斑接近圆形的程度,矩形度R 表示对象图斑接近矩形的程度,公式如下:
式中,L为对象图斑周长;S为对象图斑面积;SMER为对象图斑最小外接矩形面积。
3 结果与分析
本文基于GF-1B PMS数据,采用Meanshift分割算法获取研究区土地利用类型分割对象图斑,利用构建的研究区土地利用类型样本集,构建并训练RF分类器,图5为利用本文RF分类器分类结果制作的研究区土地利用类型遥感专题图。可见研究区内耕地、建设用地、水域等主要土地利用类型均被很好地识别分类,城市建成区符合由沿海向内陆辐散的总体格局。
图 5 研究区土地利用类型遥感专题图
Fig.5 The thematic map of land use types in the study area
采用分层随机采样法生成精度验证点共1289个(图6),以专家目视解译结果为精度验证点真值,计算 RF模型分类混淆矩阵(表3)。
图 6 精度验证点分布图
Fig.6 Distribution of accuracy verification points
表 3 分类混淆矩阵
Tab.3 Classification confusion matrix
由表3可得,本文方法总体分类精度85.73%,Kappa系数0.82,表明总体分类质量较好。各土地利用类型中,耕地、园地、林地、水域等类型分类精度较高,而城镇工矿用地、农村居民点用地两类精度稍低,这是因为这两种土地利用类型中包含了诸如住宅、厂房、道路、桥梁、堤坝等各类建筑物与构筑物,类间地物存在一定程度的光谱及空间特征差异,从而降低了在RF模型中分类特征的显著性。
4 结 论
本文基于GF-1B卫星PMS数据,采用面向对象与RF分类模型,开展江苏省连云港市赣榆区土地利用类型遥感识别与分类,结果显示:基于面向对象和RF模型,高分一号卫星数据可以用于城镇土地利用类型遥感提取,总体分类精度可达85%以上,Kappa系数可达0.8以上,基本满足业务化的调查监测需求。RF模型对光谱、空间特征相对均一的土地利用类型,如耕地、园地、林地、水域等分类精度较高,平均精度超过 80%,而对城镇工矿用地等建筑用地分类精度略低,平均精度约75%左右。综上所述,本文方法和技术路线可用于国土调查、国土变更调查等多项调查监测任务,逐步替代传统人工判图遥感信息提取模式,节约人力成本,提高调查效率,降低调查成果的主观性偏差。
需要说明的是,本文仅作为方法试点研究,所获取的总体分类精度并不代表高分一号卫星数据及面向对象的RF分类模型最佳技术性能,仍存在进一步优化以提升模型分类精度和效率的可能性,主要体现在对象分割的参数优化、构建样本集的优化、RF模型结构和特征的优化以及模型运行效率的优化等方面,这些将是下一步工作的主要方向。
作者简介:梁超(1985―),男,陕西咸阳人,副研究员,硕士,主要从事海洋卫星遥感应用研究工作
E-mail:liangchao@mail.nsoas.org.cn
本期回顾
《地理信息世界》2022年5期速览
《地理信息世界》2022年5期正文