DATA-DRIVEN ANALYSIS AND MAPPING OF THE POTENTIAL DISTRIBUTION OF MOUNTAIN PERMAFROST

Deluigi, Nicola

Abstract

In alpine environments, mountain permafrost is defined as a thermal state of the ground and it corresponds to any lithosphere material that is at or below 0°C for at least two years. Its degradation is potentially leading to an increasing rock fall activity and sediment transfer rates. During the last 20 years, knowledge on this phenomenon has significantly improved thanks to many studies and monitoring projects, revealing an extremely discontinuous and complex spatial distribution, especially at the micro scale (scale of a specific landform; tens to several hundreds of metres).
The objective of this thesis was the systematic and detailed investigation of the potential of data-driven techniques for mountain permafrost distribution modelling. Machine learning (ML) algorithms are able to consider a greater number of pa- rameters compared to classic approaches. Not only can permafrost distribution be modelled by using topo-climatic parameters as a proxy, but also by taking into ac- count known field permafrost evidences. These latter were collected in a sector of the Western Swiss Alps and they were mapped from field data (thermal and geoelectrical data) and ortho-image interpretations (rock glacier inventorying). A permafrost dataset was built from these evidences and completed with environmental and mor- phological predictors. Data were firstly analysed with feature relevance techniques in order to identify the statistical contribution of each controlling factor and to exclude non-relevant or redundant predictors. Five classification algorithms, belonging to statistics and machine learning, were then applied to the dataset and tested: Logistic regression (LR), linear and non-linear Support Vector Machines (SVM), Multilayer perceptrons (MLP) and Random forests (RF). These techniques inferred a classifica- tion function from labelled training data (pixels of permafrost absence and presence) to predict the permafrost occurrence where this was unknown.
Classification performances, assessed with AUROC curves, ranged between 0.75 (linear SVM) and 0.88 (RF). These values are generally indicative of good model performances. Besides these statistical measures, a qualitative evaluation was performed by using field expert knowledge. Both quantitative and qualitative evaluation approaches suggested to employ the RF algorithm to obtain the best model. As machine learning is a non-deterministic approach, an overview of the model uncertainties is also offered. It informs about the location of most uncertain sectors where further field investigations are required to be carried out to improve the reliability of permafrost maps.
RF demonstrated to be efficient for permafrost distribution modelling thanks to consistent results that are comparable to the field observations. The employment of environmental variables illustrating the micro-topography and the ground charac- teristics (such as curvature indices, NDVI or grain size) favoured the prediction of the permafrost distribution at the micro scale. These maps presented variations of probability of permafrost occurrence within distances of few tens of metres. In some talus slopes, for example, a lower probability of occurrence in the mid-upper part of the slope was predicted. In addition, permafrost lower limits were automatically recognized from permafrost evidences. Lastly, the high resolution of the input dataset (10 metres) allowed elaborating maps at the micro scale with a modelled permafrost spatial distribution, which was less optimistic than traditional spatial models. The permafrost prediction was indeed computed without recurring to altitude thresh- olds (above which permafrost may be found) and the representation of the strong discontinuity of mountain permafrost at the micro scale was better respected.
--
Dans les environnements alpins, le pergélisol de montagne est défini comme un état thermique du sol et correspond à tout matériau de la lithosphère qui maintient une température égale ou inférieure à 0°C pendant au moins deux ans. Sa dégradation peut conduire à une activité croissante de chutes de blocs et à une augmentation des taux de transfert de sédiments. Au cours des 20 dernières années, les connaissances sur ce phénomène ont considérablement augmenté grâce à de nombreuses études et projets de suivi, qui ont révélé une distribution spatiale extrêmement discontinue et complexe du phénomène, en particulier à la micro-échelle (échelle d’une forme géomorphologique; dizaines à plusieurs centaines de mètres).
L’objectif de cette recherche était l’étude systématique et détaillée des potentialités offertes par une approche axée sur les données dans le cadre de la modélisation de la distribution du pergélisol de montagne. Les algorithmes d’apprentissage au- tomatique (machine learning) sont capables de considérer un plus grand nombre de variables que les approches classiques. La distribution du pergélisol peut être modélisée non seulement en utilisant des paramètres topo-climatiques (altitude, radiation solaire, etc.), mais aussi en tenant compte de la présence et de l’absence connues du pergélisol (observations de terrain). Collectées dans un secteur des Alpes occidentales suisses, ces dernières ont été cartographiées sur la base d’investigations de terrain (données thermiques et géoélectriques), d’interprétation d’orthophotos et d’inventaires de glaciers rocheux. Un jeu de données a été construit à partir de ces évidences de terrain et complété par des prédicteurs environnementaux et morphologiques. Les données ont d’abord été analysées avec des techniques mon- trant la pertinence des variables permettant d’identifier la contribution statistique de chaque facteur de contrôle et d’exclure les prédicteurs non pertinents ou redondants. Cinq algorithmes de classification appartenant aux domaines des statistiques et de l’apprentissage automatique ont ensuite été appliqués et testés : Logistic regression (LR), la version linéaire et non-linéaire de Support Vector Machines (SVM), Mul- tilayer perceptrons (MLP) et Random forests (RF). Ces techniques déduisent une fonction de classification à partir des données dites d’entraînement représentant l’absence et la présence certaine du pergélisol. Elles permettent ensuite de prédire l’occurrence du phénomène là où elle est inconnue.
Les performances de classification, évaluées avec des courbes AUROC, variaient entre 0.75 (SVM linéaire) et 0.88 (RF). Ces valeurs sont généralement indicatives de bonnes performances. En plus de ces mesures statistiques, une évaluation qualitative a été réalisée et se base sur l’expertise géomorphologique. Les RF se sont révélées être la technique produisant le meilleur modèle. Comme l’apprentissage automatique est une approche non déterministe, il a également offert un aperçu des incertitudes de la modélisation, qui informent sur la localisation des secteurs les plus incertains dans lesquels des futures campagnes de terrain méritent d’être menées afin d’améliorer la fiabilité des cartes produites.
Finalement, RF ont démontré leur efficacité dans le cadre de la modélisation de la distribution du pergélisol grâce à des résultats comparables aux observations de terrain. L’emploi de variables environnementales illustrant la micro-topographie du relief et les caractéristiques du sol (tels que les indices de courbure, le NDVI et la granulométrie) favorise la prédiction de la distribution du pergélisol à la micro- échelle, avec des cartes présentant des variations de la probabilité d’occurrence du pergélisol sur des distances de quelques dizaines de mètres. Par exemple, dans cer- tains éboulis, les cartes illustrent une probabilité plus faible dans la partie amont de la pente, ce qui s’avère cohérent avec les observations de terrain. La limite inférieure du pergélisol a ainsi été automatiquement reconnue à partir des évidences de terrain fournies à l’algorithme. Enfin, la haute résolution du jeu de données (10 mètres) a permis d’élaborer des cartes présentant une distribution spatiale du pergélisol moins optimiste que celle offerte par les modèles spatiaux classiques. La prédiction du pergélisol a en effet été calculée sans utiliser des seuils d’altitude (au-dessus desquels on peut trouver du pergélisol) et respecte ainsi mieux la représentation de la forte discontinuité du pergélisol de montagne à la micro-échelle.
--
Negli ambienti alpini, il permafrost di montagna è definito come uno stato termico del suolo e corrisponde a qualsiasi materiale nella litosfera che mantiene una temper- atura uguale o inferiore a 0° C per almeno due anni. La sua degradazione può portare ad una crescente attività di caduta di blocchi e ad un aumento dei tassi di trasferi- mento dei sedimenti. Negli ultimi 20 anni, le conoscenze riguardanti il permafrost di montagna sono aumentate considerevolmente grazie ai numerosi studi e progetti di monitoraggio che hanno rivelato una distribuzione spaziale fortemente discontinua e complessa del fenomeno, in particolare alla scala della forma geomorfologica (definita come la micro scala, da decine a diverse centinaia di metri).
L’obiettivo di questa ricerca é lo studio sistematico e dettagliato delle potenzialità offerte da un approccio basato sui dati, nell’ottica di una modellizzazione della distribuzione del permafrost di montagna. Gli algoritmi di apprendimento auto- matico (machine learning) sono in grado di considerare più variabili rispetto agli approcci classici. La distribuzione del permafrost può essere modellizzata non solo utilizzando i parametri topo-climatici classici (altitudine, radiazione solare, ecc.), ma anche considerando esempi di presenza e assenza del permafrost (osservazioni sul campo). Raccolti in un’area delle Alpi occidentali svizzere, questi ultimi sono stati mappati sulla base di indagini di terreno (dati termici e geoelettrici), interpretazione di ortofoto e inventari di ghiacciai rocciosi. A partire dalle evidenze di terreno, è stato creato un set di dati, al quale sono stati integrati diversi predittori ambien- tali e morfologici. I dati sono stati dapprima analizzati con tecniche di indagine della rilevanza delle variabili; tali tecniche sono capaci di identificare il contributo statistico di ciascun fattore di controllo del permafrost e sono in grado di escludere i predittori non pertinenti o ridondanti. Sono stati, quindi, applicati e testati cinque al- goritmi di classificazione appartenenti ai campi della statistica e dell’apprendimento automatico: Logistic regression (LR), la versione lineare e non lineare di Support Vector Machines (SVM), Multilayer Perceptron (MLP) e Random forest (RF). Queste tecniche deducono una funzione di classificazione dai cosiddetti dati di allenamento, che rappresentano l’assenza e la presenza certa del permafrost, e permettono in seguito di predire il fenomeno laddove è sconosciuto.
Le prestazioni di classificazione, valutate con le curve AUROC, variavano da 0.75 (SVM lineare) a 0.88 (RF). Questi valori sono generalmente indicativi di buone prestazioni. Oltre a queste misure statistiche, è stata effettuata una valutazione qualitativa. RF si é rivelata essere la tecnica che produce il modello migliore. Poiché l’apprendimento automatico è un approccio non deterministico, é stato possibile ottenere informazioni sulle incertezze della modellizzazione. Quest’ultime indicano in quali aree il modello é più incerto e, dunque, dove occorre pianificare nuove campagne di terreno per migliorare l’affidabilità delle mappe prodotte.
RF ha dimostrato la sua efficacia nella modellizzazione della distribuzione del per- mafrost con risultati paragonabili alle osservazioni sul campo. L’uso di variabili ambientali che illustrano la topografia e le caratteristiche del suolo (come indici di curvatura, NDVI e granulometria) aiuta a predire la distribuzione del permafrost alla micro scala, con mappe che mostrano variazioni spaziali importanti della probabilità del permafrost su distanze di poche decine di metri. In alcune falde di detrito le mappe mostrano una probabilità inferiore nella parte a monte, risultato coerente con le osservazioni sul campo. Il limite inferiore del permafrost è stato inoltre riconosci- uto automaticamente dagli esempi forniti all’algoritmo. Infine, l’alta risoluzione del set di dati (10 metri) ha permesso una simulazione della distribuzione spaziale del fenomeno meno ottimistica rispetto a quella fornita dai modelli classici. La previsione del permafrost è stata, infatti, calcolata senza utilizzare delle soglie di altitudine e quindi rispetta meglio la rappresentazione dell’alta discontinuità del permafrost di montagna alla micro scala.

SERVAL

serveur académique lausannois

DATA-DRIVEN ANALYSIS AND MAPPING OF THE POTENTIAL DISTRIBUTION OF MOUNTAIN PERMAFROST

Details