C’est une tentation qui revient à chaque élection : tenter d’expliquer – voire de prédire – les choix des votants à partir de données socio-économiques générales, en utilisant le big data et les statistiques. Si des corrélations sont bien observables, la plus grande prudence est de mise lorsqu’il s’agit de les interpréter. Tour d’horizon des indicateurs régulièrement utilisés.
-
Les jeunes et les personnes âgées votent-elles davantage FN ? Cas d’école pour comprendre l’« erreur écologique »
En croisant, pour chaque circonscription, les scores des différents partis aux législatives et le taux de personnes ayant plus de 65 ans, des corrélations faibles mais significatives se dessinent.
En statistiques, une corrélation est une relation liant deux variables. Elle est positive si les deux variables évoluent dans le même sens et négative si elles évoluent en sens contraire. Elle est dite « significative » lorsqu’on peut affirmer, avec 5 % de chance de se tromper, qu’il y a bien une relation entre les deux variables étudiées. Attention au piège cependant : l’existence d’une corrélation significative ne suffit pas à prouver qu’il existe un lien logique entre deux indicateurs.
Lors du premier tour des législatives, on peut observer par exemple que plus le nombre de personnes âgées est important dans une circonscription, plus le score du Front national (FN) est élevé. Au contraire, La France insoumise (LFI) et La République en marche (LRM) y effectuent des scores relativement moins hauts.
A ce stade, il serait pourtant faux de conclure que les plus de 65 ans votent davantage FN que les autres.
Cette erreur, régulièrement commise par les analystes, a un nom en statistiques : l’« erreur écologique ». Elle consiste à attribuer aux individus ce qui est observé au niveau collectif. Très concrètement, les électeurs ne votent pas toujours en fonction de leurs caractéristiques sociales propres (âge, richesse, par exemple). Ils votent parfois en fonction des caractéristiques sociales de leur environnement.
C’est ce décalage qui explique une autre corrélation significative lorsqu’on s’intéresse à l’âge : plus la part des mineurs est importante dans une circonscription, plus le score du FN a tendance à augmenter. Or ce ne sont pas les moins de 18 ans qui votent pour le parti d’extrême droite : ils n’en ont pas le droit. Mais leur présence importante est corrélée au choix collectif des électeurs en âge de voter. L’existence de cette corrélation ne permet cependant pas de déduire les raisons de ce vote FN.
Comment parvenir à dresser un portrait des électeurs sans avoir à se confronter à ce biais ? La seule solution reste d’assembler ces données à un niveau individuel, comme le font les sociologues ou les instituts de sondages.
L’étude Ipsos-Sopra Steria pour Le Monde, Radio France, France Télévisions, LCP, RFI, France 24 et Le Point montre d’ailleurs que le score du FN est plus élevé chez les 35-49 ans que chez les autres. Les corrélations précédentes, si significatives soient-elles, ne suffisent donc pas pour déduire le vote des individus.
-
Moins il y a d’étrangers, plus le vote FN est fort ? Pourquoi une corrélation n’équivaut pas à une causalité
Thème favori du FN, la « préférence nationale » figurait sous de nombreuses formes dans le programme présidentiel de Marine Le Pen, du logement à l’emploi en passant par les aides sociales. Au contraire, Jean-Luc Mélenchon s’opposait dans son programme aux quotas d’immigration et défendait un droit du sol intégral, pour tous les enfants nés en France.
En croisant le taux d’étrangers aux scores des candidats aux législatives, une corrélation se dessine : plus le taux d’étrangers est important, plus les scores de LFI sont élevés, contrairement à ceux du FN.
Premier écueil à éviter : l’erreur écologique. Ce ne sont pas les étrangers qui votent pour La France insoumise. Ils n’ont pas le droit de vote aux législatives. Seuls ceux originaires d’un pays européen ont le droit de vote en France, mais il est limité aux élections municipales et aux élections européennes. La corrélation significative établit donc qu’il existe une relation entre le score de deux partis (FN et LFI) et le taux d’étrangers, sans indiquer que ce sont ces derniers qui votent directement pour ou contre ces partis.
En second lieu, il serait faux de déduire de cette corrélation significative une causalité. Une corrélation diagnostique l’existence d’une relation entre deux indicateurs, mais elle n’explique pas cette relation : impossible par exemple de savoir quel indicateur a des conséquences sur l’autre.
On ne peut donc pas dire qu’un fort électorat FN pousse les étrangers à ne pas s’installer dans ces circonscriptions, ni que l’absence de relations interpersonnelles entre les votants et les étrangers explique un fort vote pour le parti d’extrême droite et sa politique de préférence nationale.
Seule une expérience, qui demanderait d’étudier les votes d’un groupe de contrôle (où les étrangers sont absents) et d’un groupe test (qui lui possède les caractéristiques sociologiques des circonscriptions) permettrait d’établir scientifiquement l’existence d’une relation causale.
-
D’autres variables couramment étudiées : diplôme et chômage
En croisant le taux de non-diplômés et les votes aux législatives, des corrélations fortes apparaissent. Plus le taux de non-diplômés est important dans une circonscription, plus le score du FN est élevé et plus celui de La République en marche est faible.
Cette fois-ci, l’étude des votes individuels effectuée par Ipsos - Sopra Steria corrobore cette relation. Le score du FN au premier tour des législatives serait de 21 % chez les personnes ayant un diplôme inférieur au bac, contre 3 % chez ceux ayant un bac + 3.
Autre variable couramment utilisée pour expliquer le vote : le taux de chômage. On observe plusieurs corrélations significatives : le score du Front national et de la France insoumise est plus élevé lorsque le taux de chômage est important, contrairement au score de la République en marche (LRM).
Là aussi, l’étude sur les votes individuels Ipsos-Sopra Steria corrobore en partie cette corrélation. Le score du FN parmi les chômeurs serait de 20 %, contre 14 % à l’échelle nationale. De même pour le score de LFI, autour de 18 % chez les chômeurs, contre 11 % sur l’ensemble des votants. L’étude ne constate cependant pas de différence majeure entre le score de LRM parmi les chômeurs (32 %) et celui du parti au niveau national (32,2 %).
S’appuyer sur des indicateurs généraux, même à l’échelle très restreinte d’une circonscription, ne permet donc pas d’expliquer, voire de prévoir, le score des différents partis aux élections. Même les données historiques ne suffisent pas à éviter les biais d’analyse inhérents aux corrélations : le paysage politique évolue, rendant par exemple fantaisiste toute prédiction du score de LRM. Seules les études effectuées à l’échelle individuelle permettent de dresser un portrait des électeurs. Elles permettent par ailleurs de capter les évolutions de perception du FN depuis l’arrivée de Marine Le Pen à sa tête. Des évolutions imperceptibles, même pour les modèles statistiques les plus avancés.