Two spécific problems in Data Science: Demand forecasting using weather data and Non-linear causality inference

Details

Ressource 1Download: Thesis_Flora_Babongo-OK.pdf (4639.92 [Ko])
State: Public
Version: After imprimatur
License: Not specified
Serval ID
serval:BIB_35E2A0F51104
Type
PhD thesis: a PhD thesis.
Collection
Publications
Institution
Title
Two spécific problems in Data Science: Demand forecasting using weather data and Non-linear causality inference
Author(s)
BABONGO BOSOMBO Flora
Director(s)
Hameri Ari-Pekka
Institution details
Université de Lausanne, Faculté des hautes études commerciales
Publication state
Accepted
Issued date
2019
Language
english
Abstract
In this thesis, I investigate two specific subjects in data science, namely demand forecasting and causality inference, dividing this thesis in two main parts.
The first part aims at improving demand forecasting accuracy that impacts supply chain performance. It consists of three articles aiming at studying how to enhance demand forecasting accuracy using pertinent data (e.g. operational transaction data, weather data, socio-economic data, etc.). Each article ex- plores a new statistical approach on the supply chain optimization through demand forecasting accuracy.
In the first article we analyze transactional longitudinal data of several business units, matched with daily location-based weather conditions. We also study ways in which weather fluctuations affect supply chain performance though the delivery delay in days. Understanding this re- lationship is valuable both for improving sales forecast accuracy and for improving operational performance.
The second article aims at explaining how weather conditions and fluc- tuations affect the accuracy of demand forecasting for seasonal products. We found that weather conditions have a significant impact on demand forecasting accuracy with reductions in percentage errors up to 45%. These results can be used to justify and motivate the integration of the impact of variability in weather in the decision making process in or- der to better anticipate demand volumes and reduce costs due to excess inventory or stock shortages.
The goal of the third article is to improve demand forecasting accuracy by using the concept of spatial dependence and interpolation, and incor- porating the effects of socio-economic aspects and weather conditions in the spatial dependence structure. The accuracy of demand forecasting is improved, the reduction of the forecasting error is up to 48%.
The goal of the second part is to infer the causal relationship in the case of non-linearity and heteroscedasticity.
In the fourth article, a two-steps method is proposed to infer the intrinsic causal mechanism between two variables dealing with heteroscedasticity. We provide a bivariate multiplicative noise model that we extend to the multiplicative case. The two-steps Causal Hetetoscedastic Model consists of applying a causal additive model on the BAMLSS (bayesian additive model for location, scale and shape) fitted values of the estimated pa- rameters. The simulation study provides an accuracy of 0.97 on average.
In this thesis, I have explored and analyzed two specific subjects in data science, which are demand forecasting and non-linear causality inference. This thesis has provided several studies improving demand forecasting accuracy by reducing the forecasting error in several contexts dealing with seasonality, through the integration of external data such as weather or socio-economic data, using complex statistical models. The causal method provided in this thesis allows the inference of inherent causal mechanism.
--
Dans cette thèse j’investigue deux sujets particuliers de la science des données, à savoir la prévision de la demande et l’inférence de la causalité, divisant cette thèse en deux parties.
Le but de la première partie est d’améliorer la précision de la prévision de la demande car elle impacte la performance de la chaîne logistique. Cette partie comprend trois articles dans lesquels nous étudions comment améliorer la précision des prévisions de la demande grâce à l’incorporation des données pertinentes dans le modèle d’analyse. Chacun des trois articles explore une nouvelle approche statistique.
Dans le premier article, nous analysons les données transactionnelles des opérations de plusieurs unités commerciales, jumelées avec les données sur les conditions météorologiques journalières. Nous analysons aussi comment les fluctuations de la météo affectent la performance de la chaîne logistique. La compréhension de ces relations est importante et utile pour l’amélioration de la précision des prévisions de la demande.
Le but du deuxième article est d’analyser et d’expliquer comment les con- ditions météorologiques ainsi que ses fluctuations impactent la précision des prévisions de la demande saisonnière. Les résultats montrent que le temps qu’il fait a un impact significatif sur cette précision, réduisant le pourcentage d’erreur de 45%. Ces résultats peuvent être utilisés pour justifier et motiver l’intégration de l’impact de la météo dans le processus décisionnel.
Le troisième article utilise la dépendance spatiale pour améliorer la pré- cision des prévisions de la demande, ainsi que l’incorporation des effets des facteurs socio-économiques et des conditions météorologiques dans la structure de cette dépendance spatiale. Les résultats révèlent une amélioration de la précision et une réduction de l’erreur de prédiction allant jusqu’à 48%.
La deuxième partie de cette thèse explore l’inférence de la causalité dans le cas de la non-linéarité et de l’hétéroscédasticité.
Dans le quatrième article, nous proposons une méthode à deux étapes pour inférer le mécanisme causal intrinsèque entre deux variables en présence d’hétéroscédasticité. Nous proposons un modèle bivarié et mul- tiplicatif par rapport au terme d’erreur que nous étendons au cas mul- tivarié ensuite. Le modèle à deux étapes appelé Causal Heteroscedastic Model (CHM) consiste à appliquer un CAM (causal additive model) aux valeurs ajustées des paramètres estimés par un modèle BAMLSS (bayesian additive model for location, scale and shape). Les simulations effectuées montrent que le CHM trouve la bonne causalité dans 97% des cas en moyenne.
Dans cette thèse, j’ai exploré et analysé deux sujets spécifiques de la science des données, qui sont la prévision de la demande et l’inférence de la causalité non-linéaire. Cette thèse comprend plusieurs études améliorant la précision des prévisions de la demande, dans différents contextes comme la saisonnalité, en réduisant l’erreur de prédiction grâce aux données pertinentes et aux outils statistiques complexes. Quant au model à deux étapes proposé, il permet l’inférence du mécanisme inhérent de la causalité.

Create date
07/10/2019 9:27
Last modification date
17/04/2020 9:07
Usage data