Dans le domaine des statistiques, les chiffres parlent-ils seuls ?
L'actuariel 35
Du recrutement des sujets à la constitution de l’échantillon, différents types de biais sont susceptibles d’être introduits dans les études. En les identifiant, il est possible d’interroger leur influence sur les résultats et, parfois, d’en corriger les effets.
Connaître son ennemi pour mieux le combattre. Dans les études, le biais est cet ennemi, aussi puissant que sournois, contre lequel il ne faut jamais baisser la garde. Puissant, parce qu’il a fait douter de nombreux experts, sournois parce que même les plus attentifs peuvent ponctuellement manquer de clairvoyance. À l’instar du « phénomène du 7 » qui a sévi quelques années durant. Pour résumer, des études avaient démontré que lorsque les personnes devaient choisir un chiffre entre 0 et 9, elles optaient en majorité pour le 7. Longtemps resté à l’état de mystère mathématique, ce phénomène a finalement été percé à jour par les statisticiens, qui se sont interrogés sur la question de l’échantillon… Toutes les études avaient été réalisées en Europe et en Amérique, où – des sept péchés capitaux aux sept nains – la culture des symboles pouvait influencer les personnes interrogées. Sur un échantillon mondial, l’équilibre des chiffres était rétabli. « Dans ce cas précis, le problème n’était pas mathématique, c’était simplement du bon sens. Mais il est parfois difficile d’y penser », admet Nicolas Gauvrit, mathématicien et chercheur en sciences cognitives, rattaché à l’École pratique des hautes études à Paris et auteur du livre Statistiques. Méfiez-vous ! (2007).
Pour Patrice Bertail, professeur de mathématiques à l’université Paris-Ouest-Nanterre-La Défense et à Télécom ParisTech, il s’agit d’un biais statistique dit de sélection. « Ce biais apparaît lorsque les caractéristiques de la population étudiée sont différentes de celles de la population générale », note-t-il dans son article « Algorithmes : biais, discrimination et équité », écrit avec trois autres professeurs de Télécom ParisTech. Ce biais de sélection est à l’origine d’un décalage potentiel des résultats. Les vertus de la luminothérapie peuvent être prises en exemple. De nombreuses études réalisées sur le sujet ont ainsi démontré un recul des états dépressifs à la suite d’une exposition à des lampes reproduisant les effets de la lumière naturelle. « Ces études sont sans doute de très grande qualité, avec des échantillons conçus avec soin. Mais elles ont toutes été faites en Scandinavie, dans des pays où il fait nuit six mois durant. Dans ce cas, nous imaginons bien volontiers l’effet positif de la lumière, mais le fait de généraliser les résultats obtenus sur cet échantillon à la population mondiale constitue une erreur », explique Nicolas Gauvrit.
Aucun secteur n’est à l’abri
Dans le domaine bancaire, des biais de sélection peuvent également être introduits. En effet, les établissements peuvent décider d’accorder ou non des crédits sur la base d’informations partielles. « Pour déterminer la catégorie de risque de l’emprunteur, les algorithmes calculent un score en se basant sur les personnes qui ont été éligibles à un emprunt dans un établissement particulier. Là où le bât blesse, c’est que l’algorithme ignore les dossiers de toutes les personnes à qui les banques ont refusé un prêt, celles qui n’ont jamais eu besoin d’emprunter, celles qui ont fini de rembourser leurs emprunts, et enfin celles qui ont des emprunts dans d’autres établissements », soulignent Patrice Bertail et ses confrères de Télécom ParisTech. Pour le professeur, ce type de biais est également susceptible d’intervenir dans le domaine de l’actuariat, les assureurs n’ayant pas accès à toutes les données de la population, mais d’abord à celles de leurs clients. « Le risque, c’est que ce biais de sélection s’autoalimente et se reproduise, étant donné que le modèle étudié se nourrit des nouveaux clients ainsi sélectionnés », précise Patrice Bertail.
Réunir le bon échantillon
Des organismes reconnus sont également confrontés à la question des biais de sélection. En 2012, l’Insee souhaite conduire une étude sur les sans-domicile fixe, pour lesquels il n’existe aucune base de données. Pour construire de toutes pièces un échantillon représentatif, il décide, en lien avec des associations comme le Secours populaire ou Emmaüs, d’interroger de manière aléatoire des personnes dans des centres d’hébergement d’urgence et lors de distributions de repas. « Ce système de sélection comporte théoriquement un biais, puisqu’une personne qui ne fréquente jamais aucune de ces structures ne pouvait pas être interrogée dans le cadre de l’enquête. Aux dires des associations qui nous ont accompagnés dans cette étude, ce biais est limité. S’il était avéré et que les personnes ne fréquentant pas les structures étaient en plus grande difficulté que les autres, alors la méthode retenue pour l’enquête conduirait à sous-estimer les difficultés des sans-domicile », explique Sébastien Faivre, responsable de la division sondages à l’Insee. Les enquêteurs ont pourtant dû accepter ce biais. « L’important, dans ce cas, c’est d’être rigoureux dans la définition du champ de l’enquête : dans l’exemple des SDF, nous alertons sur le fait que l’enquête porte uniquement sur les personnes qui fréquentent les structures d’aide », souligne le responsable de l’Insee.
Après la phase de recrutement, vient l’étape de la constitution de l’échantillon. Contrairement à un recensement exhaustif, le principe d’une étude est de se baser sur un échantillon représentatif d’une population. De façon intrinsèque, tout échantillonnage est partiel, et donc sujet aux biais. « L’erreur d’échantillonnage est inévitable, c’est ce qui différencie les études des recensements. En revanche, le biais d’échantillonnage peut avoir des conséquences sur les résultats de l’étude et leur interprétation », souligne Sébastien Faivre. La Banque mondiale a failli en faire l’expérience avec son étude sur l’eau (qualité et accès). En Afrique, ce sont les femmes qui vont la chercher et s’en servent pour le quotidien de la famille. Si elles sont de fait les plus habilitées à fournir des informations sur le sujet, ces dernières sont cependant moins disponibles que les hommes – et parfois non autorisées à s’entretenir avec les enquêteurs. Conséquence, un biais risque d’être introduit : la personne interrogée n’est pas celle que l’on souhaite observer. Si la Banque mondiale s’était contentée d’interroger les hommes, elle aurait fait ce que l’Insee appelle une erreur de « proxy ». Lors des enquêtes, l’équipe identifie un échantillon et peut choisir d’autoriser une personne proche – le proxy – à répondre ou non. Sur l’eau ou la santé, les femmes n’ont pas toujours le même point de vue ni la même connaissance du problème que les hommes, ce qui pourrait fausser les résultats de l’étude.
Dans son Guide pratique pour la conception d’enquêtes sur les ménages, publié par la division statistiques de l’Organisation des Nations unies en 2010, l’organisme apporte des conseils, des mises en garde et une élégante métaphore du travail d’échantillonnage : « Un échantillon bien conçu, qui est un arrangement symphonique, doit combiner harmonieusement de nombreux éléments », est-il écrit. « Ce type de mise en garde nous rappelle la nécessaire attention avec laquelle nous devons manipuler les études et nous interpelle sur le fait que les statistiques doivent être interrogées avec précaution », commente Sylvestre Frezal, actuaire certifié IA, directeur chez Covea.
Le poids des stéréotypes
En actuariat, comme dans tous les domaines où les statistiques sont à la base d’une prise de décision, la vigilance est de mise. « Dans l’assurance, l’entreprise extrapole ce qu’elle a remboursé au titre de la dernière tempête ou du dernier sinistre du même genre. Le résultat d’un calcul purement mathématique, sans lien métier, sera probablement mauvais. Il faut aller voir concrètement qui est confronté au problème pour bien interpréter les données et ne pas se tromper ensuite dans l’extrapolation mathématique », insiste Sylvestre Frezal. Sans compter que des biais cognitifs peuvent également influer sur la constitution de l’échantillon. « Les biais cognitifs sont une distorsion de la manière dont l’information est traitée par rapport à un comportement rationnel ou à la réalité. Par exemple, le biais de “ bandwagon ” ou “ du mouton de Panurge ” peut conduire le programmeur à suivre des modélisations qui sont populaires sans s’assurer de leur exactitude », alertent les enseignants de Télécom ParisTech. Pour Patrice Bertail, des stéréotypes peuvent persister en actuariat : « Dans le domaine de l’assurance automobile, il peut exister un a priori sur la conduite des femmes qui influe sur la manière de construire l’échantillon. »
Le biais de volontariat
De son côté, l’Insee estime être peu confronté aux biais. L’organisme peut en effet se reposer sur de nombreuses bases de données sur la population et ses sous-populations, ce qui permet de conduire des études avec un échantillon aléatoire très précis. À l’inverse, les enquêtes menées dans la rue ou par Internet sont plus susceptibles d’introduire un biais d’échantillonnage. Ainsi, les habitants des campagnes sont régulièrement sous-représentés dans les questionnaires menés sur Internet. Les personnes équipées d’un ordinateur seront surreprésentées. Parfois, un biais dit de volontariat peut s’ajouter : ce sont régulièrement les mêmes profils qui acceptent de répondre aux études et les mêmes qui refusent toute enquête. Si la population est interrogée sur le goût d’un yaourt, ces biais n’auront peut-être aucun impact sur les résultats. En revanche, dans le cas d’un sondage politique, rien n’est moins sûr.
Dans les enquêtes de niveau de vie, il est reconnu que plus le revenu des interrogés est élevé, plus ces derniers sont réticents à répondre. « Pour tenir compte des profils de non-réponse, il existe des techniques de modélisation permettant de corriger le poids de ceux qui ont répondu. Nous estimons la probabilité de non-réponse et nous corrigeons le poids des répondants en multipliant par l’inverse de la probabilité de réponse », explique Sébastien Faivre. D’expérience, les spécialistes des sondages savent que les retraités vivant à la campagne, dans une maison individuelle, ont plus de chances de répondre que des personnes plus jeunes, encore dans la vie active, et qui habitent en centre-ville.
Dans son étude en cours sur les pratiques sportives en France, l’Insee a par exemple conscience que le sexe et l’âge sont des variables qui influent sur le temps passé à faire du sport. Étant donné que ce sont justement ces catégories qui répondent le moins, l’organisme corrige le tir en ajustant l’échantillon en profils non-répondants, afin de leur donner la place qui leur revient au sein de la population globale. Qu’elles soient réalisées en amont ou en aval de l’étude, les corrections apportées peuvent apparaître aux sceptiques comme des petits arrangements entre amis. Ces modifications sont pourtant loin d’être faites au hasard. « Au moment de choisir l’échantillon, il y a de nombreux cas dans lesquels nous ne pouvons pas éviter les biais. Il faut réfléchir à la manière dont ils vont influer sur les conclusions et au moyen mathématique de les corriger », assume Nicolas Gauvrit. « Il y a tout un cadre théorique et des modèles mathématiques derrière ce travail de correction. Ce sont des méthodes robustes et validées au niveau international, assure de son côté Sébastien Faivre. Et au final, ces réglages sur l’échantillon permettent bien de réduire l’écart entre l’estimation et la vraie valeur. »
L’importance du non-mesurable
Parfois, la difficulté consiste à reconnaître que l’échantillon est incomplet… une fois construit. Sylvestre Frezal a récemment été confronté à ce cas. Avec son équipe de Covéa, il avait effectué un calcul de valorisation à cinq ans des start-up, avant de réaliser que seules les entreprises vendues avaient été prises en compte. Les entreprises ayant échoué à se vendre, qui auraient dû être valorisées à zéro, avaient été oubliées. « Nous nous sommes rendu compte du biais, car il y avait des points de vue très différents entre les investisseurs et les entrepreneurs. Tous étaient sincères, mais l’écart de valorisation était très important. Nous avons creusé puis identifié le biais. En réalité, c’est très facile de l’introduire en toute sincérité. Il y a de nombreux domaines, comme dans ce cas, où l’on utilise des statistiques sans même y penser et donc sans avoir la vigilance dont nous faisons preuve habituellement pour construire notre échantillon », admet Sylvestre Frezal. Ce dernier tient à rappeler que le facteur humain demeure indispensable. Selon lui, la compréhension des données que l’on construit est primordiale pour identifier les variables explicatives essentielles du sujet : « Le facteur humain est parfois un peu oublié dans les études. Nous construisons des édifices théoriques avec un rêve d’objectivité mais, dans la vraie vie, il faut savoir écouter. La compréhension des données est plus importante que la formule mathématique. »
BIG DATA :
Remède ou mirage ?
Si le big data facilite le recueil des données, il pose la question de la méthode de leur collecte, mais aussi de leur interprétation et de leur analyse. Car, à l’heure du recours aux algorithmes, le risque d’introduire un biais est loin d’avoir disparu.
À l’ère des mégadonnées accessibles sur Internet, le biais d’échantillonnage est exponentiel. « Le big data, avec la quantité de données collectées au départ et mises à disposition, donne l’illusion de ne plus avoir besoin de créer d’échantillonnage. Or le biais existe dès le départ et il est d’autant plus fort que l’on n’en a pas conscience », prévient Laurence Barry, actuaire certifiée IA, cotitulaire de la chaire PARI (ENSAE/Sciences Po) – programme de recherche pour l’appréhension des risques et des incertitudes. À cause de cette illusion, beaucoup d’utilisateurs du big data se dispensent de la phase de collecte, alors que la base de données sur laquelle ils travaillent est très partielle et donc partiale.
Le statisticien faisait des choix, des hypothèses, le big data fournit des quantités astronomiques de données sans que leur origine ne soit questionnée ni qu’un spécialiste ne s’interroge sur leur pertinence vis-à-vis de la question étudiée. « Nous avons gagné du temps en économisant la phase de structuration de l’étude, mais nous en avons perdu en théorie », regrette Laurence Barry.
Et de citer l’exemple des modèles de reconnaissance d’images, souvent entraînés par des bases comme ImageNet, qui manque par exemple de données sur les visages de femmes noires, occultant ainsi une part de la population. « Il est tentant de s’en servir sans savoir vraiment ce qu’il y a dedans. Cela fait partie des utopies du big data : nous pensons avoir accès à tout, alors qu’en réalité nous avons seulement accès à ce que les gens ont bien voulu partager », rappelle Laurence Barry. Malgré la tentation d’utiliser un peu naïvement ces données, il est donc indispensable de s’interroger sur la sélection qui a été faite au départ.
Dans leur étude du sujet, le professeur de mathématiques Patrice Bertail et ses collègues de Télécom ParisTech ont mis de jolis mots sur cette utopie, en indiquant que le big data permet aux approches statistiques d’accéder au « paradis asymptotique », promis par la loi des grands nombres. Mais celui-ci tient du mirage et les utilisateurs de ces données doivent les manier avec vigilance. « La validité d’une procédure d’apprentissage statistique, aussi automatisable soit-elle, repose fortement sur les hypothèses faites sur les mécanismes aléatoires inhérents à l’observation des données (…) : sa simplicité ne doit donc pas inciter certains à jouer aux apprentis sorciers », soulignent les professeurs de Télécom ParisTech. Dans leur article, ils relèvent un exemple flagrant de biais d’échantillonnage chez Amazon. En 2015, le service recrutement de l’entreprise avait mis en place un algorithme pour l’aider à trier les CV qu’il recevait, en se basant sur les candidatures des dix années précédentes.
Son utilisation a été suspendue car la méthode discriminait les profils féminins. « L’algorithme attribuait fréquemment de mauvaises notes à des profils qualifiés de femmes et proposait systématiquement des candidats sous-qualifiés pour toutes sortes de postes très variés. Dans ce cas particulier, les données en entrée étaient complètement déséquilibrées entre hommes et femmes, les hommes constituant l’écrasante majorité des cadres recrutés dans le passé, et l’algorithme ne laissait aucune chance aux nouvelles candidates, pourtant qualifiées », relèvent-ils.
Parce que les algorithmes d’apprentissage sont de plus en plus utilisés dans les domaines de l’analyse prédictive (risque, crédit, justice prédictive…), des chercheurs travaillent à des patchs correctifs. Professeurs à la Sorbonne et fins connaisseurs du sujet, Dominique Guegan et Alexis Bogroff détaillent différentes solutions dans leur étude Intelligence artificielle, données, éthique. Une approche holistique des risques et de la réglementation (2019). Ils éclairent notamment la méthode Synthetic Minority Over-Sampling Technique (SMOTE), qui consiste à suréchantillonner la classe minoritaire pour rééquilibrer les données. Une technique nouvelle, héritée des statistiques classiques.
LEXIQUE
Dans une enquête ou une étude, les biais sont qualifiés d’erreur d’échantillonnage. Ils peuvent être introduits à tout moment : lors de la collecte, de la compilation ou du traitement des données. Ils peuvent aussi bien provenir de l’instrument de mesure (le questionnaire, par exemple) que de l’enquêteur. Revue des principaux biais rencontrés :
Le biais de sélection (ou de recrutement)
Ce biais intervient lorsque les personnes sondées ne sont pas représentatives des caractéristiques de la population-mère que l’on souhaite étudier. Le chercheur Peter Kleist, de la société GlaxoSmithKline, identifie cinq familles de biais de sélection : le biais de volontariat et de sélection du groupe de contrôle, le biais de style de vie et de risque concurrent et le biais de confusion incidence-prévalence, aussi appelé biais de survie sélective.
Le biais de couverture
Il intervient lorsqu’il est impossible de réunir le bon échantillon, le recensement de la population à étudier étant difficile.
Les biais cognitifs
Mauvais raisonnement, suggestions de l’enquêteur à l’enquêté… des biais cognitifs peuvent intervenir lors de la phase d’enquête et d’analyse, ou lors de la constitution de l’échantillon. Des biais sociaux et culturels, comme les stéréotypes et les préjugés, peuvent les expliquer.