Uncertainty, errors and virtual ecology: using artificial data to improve species distribution models

FERNANDES, Rui

Résumé

With the growing pressures exerted by anthropogenic activities (e.g. land-use changes, habitat fragmentation, greenhouse gas emissions) and environmental changes (e.g. climate change, biological invasions), biodiversity is being threatened worldwide. It is therefore important to sufficiently understand which factors influence the distribution and composition of species assemblages, develop tools allowing us to accurately predict them under current and future environmental conditions.
Species distribution models (SDMs) are especially useful to tackle these challenges since they allow the modelling of the distribution of species and their assemblages at different spatial and temporal scales. This is done by simply relating species observations with environmental conditions where they occur. However, different factors (e.g. sample size, modelling technique) and errors/bias (i.e. false presences/absences) were shown to affect the prediction accuracy of single species and assemblage SDMs (i.e. S-SDMs). SDMs can also provide biased projections when predicting to regions or time periods with environmental conditions outside the range of data used for model calibration (i.e. model transferability) or when that data doesn’t capture the full conditions occupied by the species (i.e. truncated datasets). While the majority of SDMs use real species data, it is important to assess their accuracy by having complete control of the data and factors influencing species distributions, hence the use of virtual or simulated species.
In the first chapter of my thesis, I used virtual species data to test SDM/S-SDMs and determine the degree to which different types and levels of errors in species data (i.e. false presences or absences) affect the predictions of individual species models, and how this is reflected in metrics that are frequently used to evaluate the prediction accuracy of SDMs. I found that interpretation of models’ performance depended on the data and metrics used to evaluate them, with model performance being more affected by false positives. In the second chapter, I assessed how different factors (sample size, sampling method, sampling prevalence, modelling technique and thresholding method) affect the prediction accuracy of S-SDMs. I found that prediction accuracy is mostly affected by modelling technique followed by sample size and that a ‘plot-like’ sampling method is recommended when sampling species data (i.e. best approximation of the species’ true prevalence).
In my third chapter I tested the potential causes that increasingly truncated datasets have on the predictive accuracy of species assemblages and if the variables used to calibrate the models also influence that accuracy, finding that the degree of truncation has more influence on species with wide realized niches. Finally, on my last main chapter, I tested and compared how accurate different modelling strategies are at predicting species assemblages under current and future climatic conditions, assessing their transferability. I found that when using presence/pseudo-absence data, all the strategies failed to predict accurate species assemblages, being better when presence-absence data is used (under current environmental conditions).
--
La biodiversité est actuellement mondialement menacée par l’augmentation de la pression due aux activités anthropiques (p. ex. changement dans l’utilisation du territoire, fragmentation des habitats, émission de gaz à effet de serre) et aux changements environnementaux (p. ex. changements climatiques, invasions biologiques). Il est donc capital de comprendre les facteurs influençant la distribution et la composition des assemblages d’espèces ainsi que de développer des outils pour les prédire précisément autant dans des conditions environnementales actuelles que future. Les modèles prédictifs de distribution (MPDs) sont des outils particulièrement utiles pour appréhender ce genre de challenges, car ils permettent de modéliser la distribution des espèces ainsi que leurs assemblages à différentes échelles spatiales et temporelles. Cela peut se faire en reliant des observations d’espèces avec les conditions environnementales dans lesquelles elles se trouvent. Cependant, il a été montré que différent facteurs (p. ex. taille d’échantillonnage, techniques de modélisation) et erreur/biais (c.-à-d. fausses présences/absences) peuvent affecter la qualité des prédictions obtenues lors de la modélisation prédictive de la distribution de simples espèces (MPD) et d’assemblages (S-SDMs). Les MPDs peuvent aussi créer des projections biaisées lorsqu’ils prédisent dans des régions ou des périodes de temps qui possèdent des conditions environnementales en dehors de la gamme de données utilisées lors de la calibration du modèle (c.-à-d. transférabilité du modèle) ou quand les données ne représentent pas l’entier des conditions occupées par l’espèce (c.-à-d. jeu de données tronqué). Bien que la majorité des MPDs utilisent des données d’espèces réelles, il est important de pouvoir évaluer leurs précisions en ayant le contrôle complet des données ainsi que des facteurs pouvant influencer la distribution des espèces. Seul l’utilisation d’espèces virtuelles ou simulées permet d’obtenir ce contrôle total. Dans le premier chapitre de ma thèse, j’ai utilisé des données d’espèces virtuelles afin de déterminer, à l’aide de MPDs/S-SDMs, dans quelle mesure différents types et niveaux d’erreurs dans les données d’espèces (c.-à-d. fausses présences ou absences) pouvaient affecter les prédictions obtenues. J’ai aussi cherché à comprendre comment cela se reflète sur les métriques habituellement utilisées pour évaluer la qualité des prédictions de ces MPDs. J’ai découvert que l’interprétation des performances des modèles dépends des données et des métriques utilisées pour les évaluer. Cette performance est particulièrement affectée par les faux positifs. Dans le second chapitre, j’ai évalué comment différents facteurs (taille d’échantillonnage, méthode d’échantillonnage, prévalence d’échantillonnage, technique de modélisation et méthode de définition des seuils) affectent la qualité des prédictions obtenues à l’aide de S- SDMs. J’ai trouvé que la qualité des prédictions est principalement affectée par les techniques de modélisation, suivie par la taille de l’échantillonnage. Une méthode d’échantillonnage dite « plot-like » est recommandée lors de la récolte de données (c.-à-d. qu’elle donne la meilleure approximation de la réelle prévalence de l’espèce).
Dans mon troisième chapitre, j’ai testé quels pouvaient être les potentiels effets de l’utilisation de jeux de données de plus en plus tronqués sur la qualité des prédictions des assemblages d’espèces ainsi que l’influence des variables utilisées lors de la calibration. Il s’avère que le degré de troncature a plus d’effet sur les espèces ayant une large niche réalisée. Finalement, dans mon dernier chapitre, j’ai testé différentes stratégies de modélisation puis j’ai comparé leur aptitude à prédire des assemblages d’espèces dans des conditions présentes et futures pour évaluer leur transférabilité. J’ai découvert que lors de l’utilisation de données de présences/pseudo-absences, toutes les stratégies échouaient à prédire de manière précise les assemblages. L’utilisation de données de présence/absences a permis, quant à elle, d’obtenir de meilleurs résultats, principalement dans des conditions environnementales présentes.

SERVAL

serveur académique lausannois

Uncertainty, errors and virtual ecology: using artificial data to improve species distribution models

Détails