Les modèles de régression à inflation de zéros et leurs applications.
Abstract
Ce mémoire est consacré aux méthodes statistiques d’analyse des données de comptage
surdispersées. On parle de surdispersion lorsque la variance des observations est supérieure à
celle attendue sous le modèle utilisé. Ses causes sont variées. Citons, entre autres, l’omission
dans le modèle de variables explicatives importantes, la présence d’observations aberrantes ou
d’une hétérogénéité inobservée entre les individus de l’échantillon. Un excès d’observations
égale à zéro (on parle d’excès de zéros ou d’inflation de zéros) est une autre cause majeure
de la surdispersion, que l’on rencontre dans les domaines d’application les plus "classiques" :
assurance (automobile en particulier, en raison du système de bonus-malus), économie (de
la santé par exemple, dans l’étude de la consommation de soins et des déterminants du
renoncement aux soins médicaux), épidémiologie, sociologie (étude des déterminants du nonrecours
aux prestations sociales).
Dans ce travail, nous nous intéressons à une cause particulière de surdispersion, appelée
inflation de zéros. Il existe plusieurs modélisations possibles de ce type de données. Nous nous
intéressons ici à une classe particulière de modèles, dits "modèles à inflation de zéros", qui se
présentent comme des mélanges entre une masse de Dirac en zéro et un modèle classique
de comptage (typiquement, un modèle de Poisson, ou Poisson généralisé, ou binomial. . .).
