Les sondages mentent-ils ?

Parmis les citations que je trouve les plus stupides et malheureusement, qui sont les plus utilisés, il y a celle-là :

« There are three kinds of lies: lies, damned lies, and statistics. »

Citation que je ne me risquerait ni à traduire, ni à attribuer.[1]

Contrairement à l’idée qui peuple l’imaginaire collectif, les statistiques ne sont pas une sous-branche crâdingue de la politique qui consisterait à faire dire à une population tout et n’importe quoi. Les statistiques sont une branche des mathématiques qui reposent sur la même rigueur et sur la même recherche de la vérité que toute autre branche des mathématiques. C’est la raison pour laquelle jamais aucun statisticien ne prend la parole dans les journeaux lorsqu’il est question de l’interprétation des résultats. Le statisticien ne se contente que de décrire une réalité mathématique à partir de faits qui permettent de dégager des probabilités, mais rien de plus.

Ce n’est que parce que les journalistes prennent souvent la plume pour déformer les propos des statisticiens et en tirer des interprétations souvent foireuses que les statistiques finissent par apparaître comme une affreuse manipulation politicienne. En sort l’impression que l’on peut faire dire ce que l’on veut aux statistiques (je l’entends souvent celle-là) et que, par conséquent, une étude statistique n’a que peu de valeur. Manque de bol pour l’imaginaire collectif, les statistiques sont au cœur de toutes les études scientifiques — en particulier médicales — et il se trouve que c’est grâce à elles que prendre un médicament est un acte relativement hors de danger.

Malheureusement, de temps en temps, un scandale — comme celui du Médiator — vient écorcher l’image des études scientifiques en général et celle des statistiques en particulier. Le point de départ de cet article est un post sur diaspora* relayant un article sur ce torchon qu’est atlantico.fr et selon lequel, « 67% des Français estiment qu’il faudrait que la direction du pays soit confiée à des experts non élus qui réaliseraient les réformes nécessaires mais impopulaires, et 40% seraient favorables à l’arrivée d’un pouvoir politique autoritaire ». Alors le sondage ment-il ? Hé bien… C’est un peu plus compliqué, en fait.

Un peu de théorie

La loi des grands nombres, théorie mathématique exprimée par le mathématicien Jacques Bernouilli nous apprend que la taille d’un échantillon à considérer pour obtenir une bonne réprésentativité d’une population totale ne dépend que faiblement de la taille de la population donnée. La taille de l’échantillon à choisir dans un sondage pour obtenir une marge d’erreur de 5% sera donc le même pour la population française que pour la population des États-Unis. Précisémment, ce que dit cette loi, c’est qu’il ne suffit pas de doubler la taille de l’échantillon pour obtenir une précision deux fois plus élevée.

En particulier, cette loi permet de calculer que pour obtenir une marge d’erreur de 5%, il suffit de tirer un échantillon aléatoire d’environ 369 personnes. Les sondages exposés dans les journeaux portent généralement sur 1000 personnes. Pourquoi 1000 personnes ? C’est parce que c’est le chiffre qui permet d’obtenir le meilleur rapport précision/coût (appeler des gens au téléphone pour leur poser des questions, ça coûte cher). Un échantillon de 1000 personnes permet d’assurer une marge d’erreur d’environ 3%. Pour info, pour obtenir une marge d’erreur d’environ 2%, il faut déjà tirer un échantillon d’environ 2000 personnes.

L’erreur avec la critique des sondages est de toujours porter sur l’idée qu’un échantillon de 1000 personnes ne peut pas être représentatif de 70 millions de français. Si. Il l’est, avec 3% de marge d’erreur (3% que les journeaux oublient toujours de préciser). Cela signifie que pour un sondage avec une question très simple et non-équivoque — p.e. : buvez-vous souvent du lait ?, avec les réponses : a – moins d’une fois par an, b – moins d’une fois par mois, c – moins d’une fois par semaine, d – au moins une fois par jour), si la population de sondés d’environ 1000 personnes répond a – au moins une fois par jour à 67%, il y a moins de 3% de chances de se tromper en ne rejetant pas l’hypothèse que 67% des français boivent du lait au moins une fois par jour.

Un peu de pratique

Le problème, c’est que la plupart des sondages ne porte pas sur des questions simples et non-équivoques. Et c’est là que l’ont peut leur faire une critique. Les sondages à l’élection présidentielle de 2002 en sont une représentation flagrante. La plupart d’entre eux ne donnait pas Le Pen au second tour. Ils se sont trompé. Non que les sondages aient été biaisés (les sondages ne sont que des mathématiques et les mathématiques ne mentent pas) mais que la fiabilité d’un sondage lorsqu’il porte sur des questions extrêmement complexes et avec énormément d’implications sociologiques comme le sont les sondages politiques ne peuvent pas être fiables car les questions ne peuvent pas être posées de manière simple et non-équivoque.

Dans le cas des sondages politiques de la présidentielle de 2002, les instituts de sondage ont été forcés d’introduire après-coup la notion de volatilité des réponses soit, en clair, l’idée que les personnes puissent dire voter pour quelqu’un lors d’un sondage et voter différemment dans l’isoloir. Les sondages ne se sont pas trompés dans ce cas là au sens où, à partir du panel de réponses et des procédés mathématiques, c’est la seule réalité qu’ils pouvaient tirer. Le problème n’a pas été un problème de manipulation des réponses mais un problème d’honnêteté de la part des participants.

C’est à cause de ça que les instituts de sondages ont dû introduire la notion de volatilité des résultats : lorsque l’on fait un sondage sur une question aussi peu neutre que la politique, il faut aussi prendre en compte les mécanismes sociologiques qui sont à l’œuvre. Dans le cas des présidentielles de 2002, une personne répondant à un sondage par téléphone, se sentant soumis au jugement de l’interlocuteur et sachant la mauvaise réputation que se traîne Le Pen, n’aura pas aussi facilement envie d’avouer vouloir voter pour Le Pen qu’il aura tendance à le faire dans l’intimité de l’isoloir. Cela ne signifie pas que les résultats sont manipulés mais simplement que le sondé peut mentir ou ne pas saisir toute la portée de la question.

Si l’on en revient au sondage d’Atlantico : est-il un mensonge d’affirmer que 67% des français sont pour la mise en place d’un pouvoir autoritaire et technocratique ? Non. Ou du moins, l’affirmation est incomplète. Ce qu’il faudrait dire, c’est qu’il existe moins de 3% de chances de se tromper en ne rejetant pas l’hypothèse que 67% de la population française est pour la mise en place d’un pouvoir autoritaire et technocratique. Ce qui apporte une nuance importante.

En revanche, là où le journal peut se tromper, voire mentir, c’est dans les conclusions qu’il peut tirer du sondage. Affirmer qu’il existe moins de 3% de chances de se tromper en ne rejetant pas l’hypothèse que 67% de la population française est pour la mise en place d’un pouvoir autoritaire et technocratique ne permet pas d’affirmer que la population française est réellement pour la mise en place d’un pouvoir autoritaire et technocratique. Car il y a au moins deux gros biais sociologiques à la manière de poser la question :

1- le fait qu’une personne réponde oui à la question ne signifie pas qu’elle le souhaite vraiment ; elle peut, par exemple, être en colère au moment de l’interview, avoir vu le journal de 20 heures ou croisé son voisin qu’il déteste et répondre de manière épidermique (volatilité des résultats),

2- elle peut ne pas avoir saisi toute la porté de la question ; par exemple, la question ne définit pas ce qu’est un expert, sur quels critères l’expert est considéré comme un expert, comment il est nommé (puisqu’il n’est pas élu) et par qui ; il est donc assez probable qu’en précisant la question (en définissant les 4 points précédents, par exemple), les résultats soient différents.

Conclusion : arrêtons d’affirmer que les sondages mentent. Les sondages n’affirment rien, ils ne sont que des probabilités qu’un évènement arrive ou n’arrive pas. Et les probabilités sont des mathématiques. Et les mathématiques ne mentent pas ;)

Notes de bas de page :
  1. À traduire parce que je ne suis pas sûr, dans ce contexte de la traduction de damn lies, tantôt traduit en mensonge sacré, tantôt en sacré mensonge, voire même en parjure; à attribuer parce qu’apparemment, personne ne sait vraiment d’où ça vient.

Déjà 6 avis pertinents dans Les sondages mentent-ils ?

  • fredololo
    Bonjour,
    Je pense qu’outre la volatilité des résultats, un autre biais important dans ces sondages se trouve dans la sélection de l’échantillon. En effet pour arriver aux x% de marge d’erreur, on doit sélectionner l’échantillon au hasard sur l’ensemble de la population concernée, et à moins de rendre la réponse à sondage obligatoire, c’est déjà impossible. Pour ce qui est des sondages politiques, je crains même que ce biais ne soit délibérément utilisé pour faire pencher le résultat. Tout comme celui de la complexité de la question, qui permet au « bon » sondeur de pousser un résultat (par ex. les indécis sont plus facilement amenés à répondre « oui » que « non »)…
    Ensuite il ne reste plus qu’à s’arranger avec la conclusion, et c’est ainsi qu’on arrive à faire dire ce qu’on veut aux statistiques…
    Merci pour l’article!
  • Coo
    Salut! Merci pour ton post.
    En ce qui me concerne je ne partage pas du tout ton analyse, voire plus : je pense que ta position renforce cette idées.
    Enfait je ne suis pas d’accord avec ta faon d’interpréter «On peut faire dire ce qu’on veut au statistiques». Quand j’entends cela, je n’entends pas «les statistiques non pas de fondement scientifique» ce qui je te l’accorde est absurde mais plutôt «les statistiques sont un domaine tellement complexe et contre intuitif qu’il est facile de présenter une étude de sorte à faire croire des choses erronées au commun des mortel» (le sens de «faire dire»). a faitun moment que je voulais répondre à ton post mais je n’avais pas d’exemple simple et convaincant, et puis je suis tombé sur cette vidéo. https://www.youtube.com/watch?v=JJO4J_tJC2s

    En lisant ta conclusion, j’ai l’impression que tu recrédite les statistiques en disant que le statisticien délivre uneinformation exacte et que c’est la faute du journal de tirer des conclusions manipulatrices. Personnellement je considère que c’est la responsabilité du statisticien, de l’expert, de prévenir une exploitation néfaste de son travail (ou de publier un démenti).

    Bon perso je suis cherceur alors je connais le problème aussi. http://www.phdcomics.com/comics.php?n=1174

  • fredololo
    Salut,
    Je répond tard, mais j’étais pas mal occupé…
    Pour préciser, sur le fond je suis d’accord avec toi, les statistiques sont des mathématiques, donc par définition exactes. Je suis d’accord sur la phrase « les sondages ne mentent pas ». Par contre pour ce qui est de « on peut faire dire n’importe quoi… », c’est le « faire dire » qui est important.
    Il y a quelques années de ça, quand un journal présentait un sondage, ça ressemblait à ça :
    « Selon un sondage réalisé par (moyen de communication), par (institut de sondage), sur un échantillon de (nombre de sondés) (groupe social), y% des sondés pensent que… »
    Mais quand on se contente de :
    « X% des Français pensent cela » à mon sens, on fait dire n’importe quoi. Ce n’est pas ce que dit le sondage qui est faux.
    Pour ce qui est des autres biais, le but, était juste de souligner à quel point on peut s’arranger avec les résultats d’un sondage, mais je suis bien d’accord, ce n’est pas la statistique qui se trompe..
  • coo
    Le problème est que le statisticien ou le géologue est aussi un citoyen qui peut contribuer à la société grâce à son expertise. D’un coté il y a certain journaliste ou créationiste qui vont se servir de leur pouvoir pour plier la société à leurs objectifs et de l’autre la vision du scientifique que tu défends qui fait proprement ca science dans son coin et qui se tait qd des gens la détourne pour servir leur dessein. On peut parler du problème de l’enseignement des sciences et non pas du créationisme. Bcp d’enseignant non apparemment pas l’expertise pour justifier ce choix devant les élèves.

    Donc strictu sensu je suis d’accord, le scientifique n’a pas le devoir de veiller à la bonne pratique de son domaine d’expertise dans la société, ce n’est pas le «travail» pour lequel il est payé. Maintenant je pense que s’il choisit cette position, il n’a pas non plus la légitimité de se plaindre que les gens considère qu’on peut faire dire n’importe quoi au statistique et qu’on devrait enseigner le créationisme comme une science, pcg dans la réalité de la société entière, ou coexiste d’une part un scientifique qui se tait, et d’autre part un journaliste, un politicien, un religieux qui parlent dans leur intérêt, ces deux assertions sont du coup vérifiées.

Laisser un commentaire

indique des champs obligatoire.