Corrélations écologiques et comportement des individus
DOI
https://doi.org/10.52983/crev.vi.101Mots-clés
Quantification, Corrélation, Erreur écologiqueRésumé
Hanan C. Selvin inventa l’expression d’erreur écologique (ecological fallacy) dans un article de 1958. Il y pointait les erreurs d’interprétation d’Émile Durkheim qui, dans Le suicide, établissait des corrélations entre diverses propriétés sociales et la propension au suicide à partir de données agrégées à l’échelle de territoires (le département pour la France, la région pour la Prusse, etc.). Par exemple, le taux de suicide étant plus important dans les régions de Prusse où les protestants sont plus nombreux, il existerait un lien entre protestantisme et suicide. Or, les suicides recensés pouvaient en réalité concerner tout autant des protestants que des catholiques : les données ne permettant pas de le mesurer au niveau individuel, il est erroné d’en déduire un lien individuel entre religion et suicide. Selvin appuyait sa critique sur un article de William S. Robinson paru huit ans plus tôt, dont Cambouis propose ici une traduction. Robinson établit mathématiquement, pour la première fois, les raisons pour lesquelles une corrélation observée entre des pourcentages ou des taux portant sur une population agrégée à l’échelle de découpages territoriaux s’avère souvent différente d’une corrélation entre des caractéristiques mesurées à l’échelle des individus composant cette population. Ainsi, plus les immigré⋅es sont nombreux dans une région des États-Unis, plus le taux d’illettrisme y est faible ; pourtant, à l’échelle individuelle, les immigré⋅es s’avèrent en moyenne plus souvent illettré⋅es que les autochtones (une explication possible de cet écart est que les immigré⋅es tendent à s’installer dans les régions aux plus faibles taux d’illettrisme). S’il nous paraît utile de remettre en visibilité cette démonstration aujourd’hui, c’est qu’elle n’a pas empêché depuis que nombre d’analyses statistiques succombent (tout en s'en défendant souvent) à la tentation d’inférer des relations « écologiques » mal contrôlées en l’absence de données individuelles – c’est ainsi fréquent en analyse électorale, lorsque par exemple est déduit de la corrélation entre la forte présence d’ouvrier⋅es et l’importance du vote FN/RN à l’échelle des circonscriptions que les ouvrier⋅es seraient passé⋅es du vote PCF au vote FN/RN, alors que les sondages « sorties des urnes », qui offrent des données individuelles, établissent que, pour l’essentiel, ce ne sont pas les mêmes ouvrier⋅es qui votaient PCF (et aujourd’hui tendent à s’abstenir) et qui votent aujourd’hui FN/RN (et qui auparavant tendaient à s’abstenir). Le risque d'erreur écologique est également l'un des facteurs du développement des modèles multiniveaux, par exemple en sciences politiques ou en démographie (voir, respectivement, les travaux d'Andrew Gelman et de Daniel Courgeau).
Publiée
Comment citer
Dossier
Rubriques
Licence
(c) Tous droits réservés William S. Robinson 2024
Ce travail est disponible sous la licence Creative Commons Attribution 4.0 International .
Cambouis publie ses contenus selon les termes de la Licence Creative Commons Attribution - Pas d'Utilisation Commerciale - Pas de Modification 4.0 International.
Les auteurices gardent leurs droits de propriété intellectuelle pleine et entière sur leurs articles.