Aujourd’hui, on va parler statistiques. Certain·e·s d’entre nous (j’en suis) en font leur métier. Sauf que les stats, c’est quoi ?

Selon l’ami Wikipédia, c’est «l’étude de la collecte de données, leur analyse, leur traitement, l’interprétation des résultats et leur présentation afin de rendre les données compréhensibles par tou·te·s. »

Déjà on est d’accord, « interprétation », ça ne renifle pas l’objectivité à 100 kilomètres. Et puis « rendre les données compréhensibles par tou·te·s », ça semble sympa au premier abord, sauf que souvent, ce qui se passe, c’est qu’on jette le précieux nombre sans autre explication. Et que souvent, on ne cite même pas les sources.

Un petit exemple ? Certaines études rapprochent la hausse de certaines MST (la syphilis et la gonorrhée, notamment) depuis les années 2013-2014 avec l’avènement des applications de rencontre (et en profitent pour fustiger les mécréant·e·s qui osent avoir des partenaires multiples) (Bouh).

Ce dont ces études ne parlent pas, c’est de la possibilité que l’augmentation de ces deux maladies puisse être causée par d’autres raisons, comme par exemple l’augmentation de la résistance aux antibiotiques des IST (source). Ils oublient de préciser que les personnes nouvellement infecté·e·s ne sont pas tou·te·s des adeptes de Tinder, OKCupid et autres sites de rencontre.

De plus, les pays où sont menés ces études (notamment la Chine et l’Angleterre) ont de vrais problèmes de prévention et d’information des jeunes à propos des comportements dits à risque. Sans parler des différences culturelles et de populations.

Mais maintenant qu’on a ces exemples frappants et présentés de main de maître, comment fait-on pour savoir si des chiffres sont fiables ou non ?

Déjà, est-ce qu’on a accès au sacro-saint temps-lieux-population ?
Il n’est pas nécessaire de l’avoir directement dans l’article, mais il est de bon ton, surtout pour la presse écrite, de citer ses sources quand on présente des chiffres. Normalement, ce lien renverra à l’étude ou l’organisme qui a produit ces chiffres. Il vous sera indiqué :

  1. Le lieu de l’étude : « La France », c’est vaste. La densité, l’âge moyen de la population, le niveau de vie, vont tous varier d’une région à l’autre. Et ne parlons pas de « menée auprès de la population européenne », il m’arrive encore de me réveiller au milieu de la nuit en hurlant à ce souvenir.
  2. Le temps : Était-ce une étude dite « cohorte », menée sur une longue période de temps avec les mêmes sujets ? Ou un questionnaire passé en un instant T auprès d’un groupe de personne ? Ça peut tout changer.
    Par exemple, on veut connaître l’état de santé de Bob. Cas 1 : On interroge Bob 10 fois en 2 ans. On en déduit que Bob a une santé moyenne. Cas 2 : On interroge Bob une seule fois, pile au moment où le pauvre homme souffre de la pire grippe de l’histoire. On en déduit que Bob a une santé au mieux médiocre.
    Encore le temps : Quand précisément se déroulait l’étude ? Un événement politique ou naturel peut-il expliquer des résultats ?
  3. Et enfin, la population : « Seuls les hommes jouent aux jeux vidéos » : Étude certainement menée auprès de dix collégiens. Pour être considérée comme représentative, une étude doit comporter un nombre minimum de sujets et, si elle se veut représentative de l’ensemble de la population, être la plus hétérogène possible au niveau de l’âge, du genre et de la catégorie socioprofessionnelle.

 

Passons aux exemples concrets

Le bon élève : Ici, un article du Monde (accessible en entier ici) qui prend soin de nous présenter la source et les éléments :

“Une étude menée par la Cami – fédération nationale Sport & Cancer, association créé en 2000 par le cancérologue Thierry Bouillet et le karatéka Jean-Marc Descotes –, et le laboratoire Amgen, s’est penchée sur le vécu des patients et des soignants et les conditions d’accès aux activités physiques.

Présentée mercredi 12 octobre, l’étude a porté sur 1 544 patients – une majorité de femmes, dont les deux tiers souffraient d’un cancer du sein. Parmi les bénéfices attendus, les patients interrogés citent en tête l’amélioration de la qualité de vie et du bien-être (99 %), des chances supplémentaires de guérir (83 %) et la réduction de la fatigue et des douleurs.”

Avant de nous présenter les résultats:

“Une méta-analyse a ainsi fait état d’un risque de mortalité réduit de 34 % chez les femmes atteintes d’un cancer du sein localisé et pratiquant une activité physique « suffisamment soutenue et régulière » (150 minutes par semaine en trois séances). Le même effet se retrouve chez les patients atteints de cancer du colon, à condition de pratiquer une activité encore plus soutenue.”

Et là, l’exemple type de stats qui auraient tout aussi bien pu être inventées:

“Ce sont des chiffres qui ont de quoi inquiéter. Le taux de fraude en entreprise en France a plus que doublé en sept ans. Il était de 29% en 2009, 55% en 2014 et 68% en 2016. Pourtant, au niveau mondial, il a très légèrement baissé puisqu’il est passé de 37% en 2014 à 36% en 2016, selon les chiffres de PwC publiés dans sa 8ème édition de l’étude « Global Economic Crime Survey 2016 ».

Alors. On parle des entreprises en France. S’agit-il d’entreprises dont le siège est en France ou de toutes les entreprises qui officient sur le sol français ? Sachant qu’un taux est, en résumé, un type d’évènement sur un ensemble, est-ce que ça veut dire que 68% des entreprises fraudent ou que 68% des actions illégales des entreprises sont des fraudes ? Sur quelles données se base l’étude ? (La suite de l’article avec les définitions de fraude ici)

Pour conclure, même si il faut se méfier, tout n’est pas à jeter. Les chiffres des organismes de santé français, par exemple, sont généralement fiables car recueillis auprès d’un grand nombre d’établissements publics de santé. Mais encore une fois : prudence. Une baisse du nombre de jours passés à l’hôpital ? Est-ce que c’est un signe de l’amélioration des soins ou d’une pénurie de lits ?

En bref, ayez l’esprit critique et quand Jean-Michel Stats vous sortira, l’air victorieux, les chiffres censés réduire à néant votre argumentaire et prouver l’oppression des mâles cishet, répondez placidement : « Mais l’échantillon était-il réellement représentatif de la population visée ? ».