Accueil Sciences & tech Actuariat Quand le big data révolutionnera la prévention

Quand le big data révolutionnera la prévention

Que peut apporter le big data à la prévention ?

L'actuariel 30 - Octobre 2018

Actuariat Transition

Les données numériques forment des océans d’informations. C’est là que les algorithmes d’intelligence artificielle peuvent détecter des corrélations permettant de dessiner l’avenir. Cela promet d’immenses progrès, notamment en médecine, une fois les comportements humains modélisés…

Annoncé depuis une dizaine d’années, l’avènement de l’intelligence artificielle et du big data devient réalité. En juin, Google présentait son programme Medical Brain, qui peut, selon le groupe, évaluer précisément la probabilité qu’un patient décède lors d’un séjour à l’hôpital. Plus près de chez nous, cet été, la gendarmerie a testé dans onze départements un nouveau logiciel prédictif. Les commandements de compagnie ont été équipés d’une plateforme web qui leur communiquait en temps réel les points chauds de leur secteur, une courbe indiquant l’évolution attendue des tentatives de cambriolage et de vols de voiture. Selon le service central de renseignement criminel de la gendarmerie, ce modèle prédit correctement l’évolution des faits à environ 85 %.

Détecter des corrélations prédictives

Ces logiciels s’appuient sur des algorithmes toujours plus puissants et auto-apprenants capables de traiter les volumes gigantesques de données issus des réseaux sociaux, des caméras de sécurité, des capteurs multiples, des satellites… Des algorithmes qui ne prédisent pas l’avenir, bien sûr, mais qui sont capables de détecter des corrélations suffisamment fines pour devenir prédictives. Ils promettent de révolutionner la prévention, notamment dans le domaine médical. Alors que l’industrie a déjà basculé dans ce monde numérique, chercheurs et entrepreneurs bouillonnent d’idées et de projets pour exploiter dans tous les autres secteurs le précieux filon.

Au cœur de cette effervescence, l’industrie fait donc figure de secteur modèle, le seul, aux côtés des entreprises spécialisées dans les risques climatiques, à être pour l’instant parvenu à bâtir un modèle solide et rentable de prévention grâce à l’exploitation des données. La maintenance prédictive en est le champ d’application le plus concret. Promesse tenue dans l’industrie : depuis deux ans, les grands groupes ont peu à peu converti leurs chaînes de production à cette technologie qui permet de déterminer à quel moment précis devra avoir lieu leur maintenance. Si on se fie aux résultats d’une étude du cabinet McKinsey, « Unlocking the potential of the Internet of things », parue en juin 2015, le mouvement n’est pas près de s’arrêter. Selon ses auteurs, d’ici à 2025, la maintenance prédictive permettra aux entreprises d’économiser 630 milliards de dollars par an. Ce gain proviendra d’une réduction des coûts de maintenance de 10 à 40 %, d’une division par deux du nombre de pannes et d’une diminution de 3 à 5 % du montant investi dans les nouvelles machines grâce à l’augmentation de la durée de vie des machines existantes. « À la fin de l’année, toutes les machines de nos chaînes de production seront connectées, témoigne une porte-parole du constructeur automobile Renault. On a commencé début 2017, soit en ajoutant des objets connectés sur de vieilles machines, soit en les remplaçant par des neuves connectées. Cela révolutionne la maintenance de l’outil de production. Avant, quand une presse d’emboutissage, par exemple, tombait en panne, toute la chaîne était arrêtée. »

Les fabricants de pneus explorent également ce créneau de la maintenance connectée depuis quelques années déjà. En les équipant de puces intelligentes, les manufacturiers, comme Michelin en France, dopent la rentabilité de leurs pneus, tout en se muant peu à peu en prestataires de services. Ils informent le conducteur de la qualité de sa conduite, de l’usure des pneus, de la présence de revendeurs alentour…

Thalès héberge de son côté depuis déjà près de dix ans un laboratoire dédié au big data. Les data scientists de l’équipementier pour l’aérospatiale, la défense et la sécurité y ont développé des algorithmes capables de détecter et d’analyser les facteurs (notamment météorologiques) de retard des avions et de prédire très précisément la durée des vols.

Grâce aux données collectées par les satellites, le big data permet en effet de surveiller l’avènement des catastrophes naturelles. Le Global Forecast System, un modèle de prévision numérique appartenant aux services météorologiques américains, prédit ainsi précisément où et quand un ouragan peut frapper. Dans le même registre, en France, 30 000 communes sont abonnées aux services de la société Predict Services, le spécialiste hexagonal de la prévention des risques climatiques. Pour donner aux élus les bonnes alertes, la société, fondée en 2006, a cartographié des millions de données topographiques qu’elle a croisées avec les données climatiques historiques correspondantes.

Difficile de cerner les comportements humains

Tant qu’il s’agit de décrypter les mouvements du ciel ou de machines, le big data fait ainsi des merveilles. Les algorithmes trouvent en revanche leurs limites face à l’analyse de données issues des comportements humains. Pour éviter des erreurs d’interprétation, des modèles mixtes plus complexes, et donc moins rentables, mêlant technologie et regard des experts, doivent être mis en place.

Le nouvel observatoire des risques routiers et de la mobilité, lancé en février par l’Association prévention routière et dont l’Institut des actuaires est partenaire, est un bon exemple de cette combinaison. Des boîtiers connectés ont été placés dans les véhicules de conducteurs volontaires. « Ce qui intéresse les actuaires, c’est de prédire le risque et la sinistralité potentielle. Grâce à notre expertise métier, nous connaissons déjà la grande majorité des variables qui influencent la sinistralité, décrypte Anne-Charlotte Bongard, actuaire certifiée IA, vice-présidente de la commission IARD de l’Institut des actuaires, en charge du pôle IARD d’Actuaris. Le big data permet d’affiner cette analyse, en croisant davantage de données. Dans le cas du nouvel observatoire des risques routiers, il permet de confronter le déclaratif à la réalité des informations collectées par une application mobile dédiée et complétées par des données météorologiques ou cartographiques. »

« La simple manière dont on considère les résultats est déjà porteuse d’un biais d’interprétation »
Stéphane GAIFFAR
Université Paris-Diderot

Stéphane Gaiffar, professeur au laboratoire de probabilités et modèles aléatoires de l’université Paris Diderot, confirme cette idée de complémentarité entre les informations issues des algorithmes et l’expertise humaine. Le scientifique travaille, avec son confrère Emmanuel Bacry (lire interview ci-dessous), sur les données de la Caisse nationale d’assurance maladie afin de détecter des effets secondaires potentiellement dangereux dans les médicaments. « Nous combinons des approches biostatistiques avec les méthodes d’intelligence artificielle et la connaissance d’experts métiers, explique-t-il. Pour ce projet, nous travaillons avec des médecins en santé publique. Il faut faire très attention à l’interprétation des résultats. Comme lors des expériences en physique quantique, la simple manière dont on les considère est déjà porteuse d’un biais d’interprétation. »

Résistance française ?

Les biais sont d’autant plus probables en France que les ménages restent très méfiants face aux objets connectés. Malgré des lancements en fanfare, les montres et les bracelets connectés, souvent transformés en gadgets, ne se sont ainsi jamais imposés dans l’Hexagone. Même s’il est devenu très simple de piloter à distance sa vidéosurveillance, ses volets ou la climatisation de sa maison, les particuliers n’ont pas encore franchi le cap de la maison connectée. Selon un sondage de Sociovision (Ifop), pour le compte de l’association Promotelec (confort et sécurité dans l’habitat), réalisé en mai dernier, seules 15 % des personnes interrogées envisageaient de se munir d’une maison à haute technologie. Pourquoi une telle frilosité ? Les sondés évoquent aussi bien le prix des objets que la crainte des dangers pour la vie privée.

Les motivations sont également insuffisantes, car les ménages, assurés contre les dégâts domestiques, ne voient pas le bénéfice financier qu’ils tireraient à s’équiper d’objets encore onéreux. « Aujourd’hui beaucoup d’objets connectés n’intègrent pas les contraintes utilisateurs et ceux-ci s’en lassent rapidement ou bien en détournent les usages, décrypte David Dubois, président de l’Institut des actuaires, directeur France et Benelux du réassureur RGA. Or un assureur ne peut moduler ses tarifs si, en face, il n’y a pas de changement du comportement sur le long terme. Résultat : les compagnies ne peuvent pas aujourd’hui exploiter pleinement le potentiel des objets connectés. »

De grandes promesses pour le médical

Le domaine médical, au croisement de multiples expertises, est un autre exemple type d’un secteur que le big data pourrait révolutionner, mais dont les pratiques n’ont pourtant évolué qu’à la marge. Les médecins se contentent encore plus ou moins de répliquer en e-santé les mêmes processus qu’en médecine présentielle. L’analyse des données massives permet de distinguer des sous-groupes toujours plus fins au sein des maladies mais nous sommes loin d’une médecine numérique personnalisée.

« Mon point de vue est que cette étape arrivera dans dix à quinze ans, estime Xavier Briffault, chercheur en sciences sociales de la santé au CNRS. Elle apportera un changement considérable. Par exemple, dans mon domaine, en psychiatrie, un focus important est mis sur les maladies les plus graves – pour lesquelles l’intérêt du numérique est encore difficile à apprécier –, mais l’essentiel des charges de morbidité provient de tous les troubles intermédiaires : dépressions diverses, troubles anxieux, hyperactivité, troubles de la personnalité, troubles du comportement alimentaire, addictions, autisme léger… Ces problématiques pourront certainement être améliorées par des outils numériques légers qui interviendront en permanence de façon ciblée et permettront d’éviter les impacts fonctionnels trop importants et les évolutions défavorables. »

Associer tous les acteurs et partager les informations

Le chercheur ne croit pas pour autant, lui non plus, que la prévention puisse être totalement confiée à ces outils automatiques. « La révolution à venir dans la prévention, ce n’est pas seulement le big data mais le fait qu’on va pouvoir cibler les interventions en les adaptant à chaque personne, en tenant compte de son contexte. Je crois en un modèle mixte, intégrant de façon synergique, dans la relation clinique et thérapeutique, des outils connectés, des algorithmes d’intelligence artificielle, des professionnels de santé et les patients eux-mêmes ainsi que leurs proches », affirme-t-il.

La construction d’un telle association se heurte au problème de l’interopérabilité des dispositifs, notamment entre le public et le privé. D’autant que, pour l’instant, les compagnies privées, comme Apple, mènent la danse des outils connectés. Selon un sondage OpinionWay pour Mazars, publié ce printemps, les Français sont prêts à cette révolution : 69 % des personnes interrogées se sont déclarées favorables au dossier médical centralisé en ligne et une sur deux (53 %) à la transmission en direct à des professionnels de santé des données collectées par des objets connectés.

Les choix éthiques aux mains du politique

L’État devra nécessairement prendre la tête d’une telle révolution. Pour l’instant, les autorités publiques ont surtout investi sur le big data afin de renforcer leur sécurité. Tous les États occidentaux sont équipés de logiciels, plus ou moins aboutis, censés traquer les échanges des potentiels terroristes sur les réseaux sociaux mais aussi suivre leurs déplacements physiques. Lors de son audition, en février 2017, devant la commission de sénateurs Requier-Buffet, qui planchait sur l’avenir de Schengen, le patron de l’époque du contre-espionnage français, Patrick Calvar, ­témoignait : « C’est moins le manque d’information qui pose problème que notre capacité à exploiter l’information. Vous savez sans doute que nous avons acquis un outil big data pour nous aider à brasser les milliers de données que nous récoltons dans nos opérations. » Ces équipements posent à toutes les démocraties une question éthique de fond. À quel moment doivent intervenir les services ? Suffisamment tôt pour être efficaces, bien sûr, mais suffisamment tard pour ne pas sombrer dans le scénario cauchemardesque de Minority Report, la nouvelle écrite par Philip K. Dick et adaptée au cinéma par Steven Spielberg, qui décrivait un système de prévention ultra-sophistiqué permettant d’arrêter les tueurs avant même qu’ils aient conscience de leur volonté de passer à l’acte.

La Chine et son « système de crédit social », censé évaluer la fiabilité des citoyens, dessinent en ce sens une voie inquiétante. Ce dispositif, qui sera officiellement lancé en 2020, sanctionnera tous les comportements interdits par le Parti communiste chinois : fraudes, publication d’articles critiques… Depuis le 1er mai 2018, les Chinois ayant une mauvaise « note sociale » se sont déjà vu interdire l’achat de billets de train ou d’avion pour une période pouvant aller jusqu’à un an. Le système sera construit à partir des données de plusieurs outils existants, dont ceux des géants du Web Alibaba, Tencent ou Baidu, ont prévenu les autorités.

La maîtrise des données est ainsi devenue un enjeu crucial de pouvoir. Si elles veulent le conserver, les démocraties n’ont d’autre choix que de bâtir une puissante régulation mondiale. Un usage non encadré des capacités prédictives du big data risquerait de façonner un monde où chaque personne, devenue invisible derrière la masse de ses données, ne serait plus considérée que comme un profil numérique, motivé non plus par des causes mais par une juxtaposition de corrélations.

point de vue

Emmanuel BACRY

Directeur de recherche au CNRS, attaché à l’université Paris-Dauphine et professeur à l’École polytechnique.
Il travaille depuis 2015 sur les données de l’Assurance maladie et traque les effets secondaires de médicaments.

Pourquoi travailler avec l’Assurance maladie ?

Emmanuel BACRY : Le Système national d’information interrégimes de l’Assurance maladie (Sniiram) est une des plus grandes bases de santé mondiales ! Elle contient toutes les informations liées à la carte Vitale pour 67 millions de personnes. J’ai approché l’Assurance maladie en 2014 pour proposer à ses dirigeants de tester le potentiel des techniques du big data sur ces données. Nous avons d’abord signé un partenariat de trois ans, de 2015 à 2017, puis, récemment, un deuxième, de 2018 à 2020.

Les données étaient-elles directement exploitables pour la recherche ?

Emmanuel BACRY : L’organisation de la base est optimisée pour traiter les remboursements de soins, pas vraiment pour la recherche. L’ensemble est extrêmement complexe. Les données sont organisées dans une base relationnelle sur des machines Oracle à l’architecture relativement fermée. Au total, 800 tables sont ainsi mises en relation, dont 20 de grande taille. La plus grande contient plus d’un milliard de lignes. C’est sur cette table qu’une ligne est ajoutée chaque fois que l’Assurance maladie valide un remboursement de soin. Cette table principale pointe ensuite vers les autres tables annexes : assurés, médecins prescripteurs, actes médicaux…

Vous avez donc dû restructurer la base…

Emmanuel BACRY : Oui, nous y avons travaillé pendant deux ans afin de retrouver les parcours de soins derrière les remboursements. En septembre dernier, huit personnes à temps plein planchaient dessus. La base atteint un volume considérable, entre 200 et 300 téraoctets. Nous avons commencé par restructurer 3 téraoctets et en sommes aujourd’hui à 30. Pour cela nous avons monté un cluster big data de 20 machines au sein de la Cnam. Nous avons transformé les données brutes en une matrice utilisable par les algorithmes d’apprentissage. L’historique d’un assuré ou d’un professionnel est désormais facilement adressable.

Cette réorganisation a-t-elle été concluante ?

Emmanuel BACRY : Nous avons remporté un premier succès en pharmacovigilance sur un cas connu, la pioglitazone, un antidiabétique qui augmente les risques de cancer de la vessie et a été retiré de la vente en 2011. À partir d’une cohorte de 2,5 millions de diabétiques, nos algorithmes ont pu identifier de façon automatique le pioglitazone comme ayant un effet significatif sur le risque de cancer. Aujourd’hui nous appliquons cet algorithme à des cas réels. Nous travaillons sur une cohorte de 12 millions de personnes âgées. Sur un ensemble de 400 médicaments, nous voulons repérer ceux qui augmentent les risques de chuter.

Prévention & Big Data :
L’assurance française tatônne

Les compagnies peinent encore à utiliser les masses de données dont elles disposent. Lorsque le secteur aura relevé ce défi technique, il devra aussi répondre aux questions fondamentales de l’hypersegmentation.

Les assureurs ne brillent pas par l’audace de leurs programmes de prévention, qui, loin des beaux discours des dirigeants, s’apparentent toujours à des actions de marketing visant à fidéliser l’assuré. Le big data, malgré toutes ses promesses, n’a pas pour l’instant changé la donne. En France, la prévention reste l’apanage des pouvoirs publics, comme l’a souligné Agnès Buzyn, la ministre de la Santé, en présentant sa feuille de route à l’automne dernier.

Des expériences, peu de résultats

Les compagnies ne restent pourtant pas les bras croisés mais elles se heurtent encore aux réticences des utilisateurs et à leurs propres difficultés à rentabiliser le marché des données, ce qui les empêche d’avancer. Depuis 2015, une poignée de sociétés – Allianz, Axa, Groupama, Société générale Insurance – se sont ainsi lancées sur le créneau de l’assurance automobile connectée, le Pay How You Drive. Sans grands résultats pour l’instant. En France, environ 20 000 conducteurs ont adopté ce type d’assurance automobile, contre 4,5 millions en Italie, pays européen le plus à la pointe, ou 450 000 en Grande-Bretagne, selon une étude Deloitte de 2016. Les assureurs travaillent également sur des offres d’assurance multirisque habitation connectée. Ils proposent ainsi depuis les années 2000 des systèmes de télésurveillance qu’ils tentent de muscler avec l’aide des objets connectés. Ces programmes restent assez confidentiels. Contrairement aux offres voitures connectées, qui récompensent les conducteurs prudents par une baisse substantielle des primes, les compagnies ne savent en effet pas faire varier leurs tarifs d’assurance habitation pour les clients qui acceptent d’équiper leur maison.

Des “data lakes” sous-exploités

Les groupes tâtonnent également dans la santé. On se souvient d’Henri de Castries, l’ex-PDG d’Axa, portant au printemps 2014 en toute circonstance son bracelet connecté Withings Pulse. La compagnie l’avait donné aux 1 000 premiers clients de son assurance Modulango, qui prévoyait d’offrir des chèques cadeaux en médecine douce à ceux qui réalisaient 7 000 pas par jour. L’affaire a été rapidement repliée… Generali a repris le flambeau avec son offre Vitality, mais il est encore trop tôt pour en mesurer le succès. « Depuis cinq ans, de grands chantiers ont été lancés dans toutes les compagnies, décrypte Julien Maldonato, associé chez Deloitte. Elles ont toutes bâti des “data lakes”, où sont déversées les précieuses données. Mais le raffinage de ce pétrole se fait encore très mal. Il est difficile pour les compagnies de retenir les scientifiques des données, qui se retrouvent en leur sein très pris par les sujets de conformité et ont finalement peu de temps pour leurs recherches. De plus, l’exploitation des données reste beaucoup plus encadrée en France que dans les pays anglo-saxons, ou bien sûr en Chine. »

L’avènement de l’hypersegmentation ?

Les hésitations des assureurs ne s’expliqueraient-elles également pas par des considérations plus prosaïques ? Si le big data permet d’améliorer la connaissance des risques individuels, les systèmes internes (notamment informatiques mais aussi de distribution) sont-ils capables de s’adapter à une hypersegmentation ? Le supplément d’information, et la segmentation qu’il peut induire, permet-il de financer les nécessaires évolutions ? Pour un grand nombre d’acteurs, l’analyse coûts/bénéfices semble encore être à mener. Ceci dans un contexte où certains risques de masse (santé, vie) demeurent encadrés par la réglementation.

Santé :
Les compagnies veulent faire parler
leurs propres données

 

Les assureurs n’ont qu’un accès très restreint au nouveau système national de données de santé. Ils espèrent contourner cette difficulté en faisant parler leurs données traditionnelles : les prestations versées aux assurés.

Les compagnies d’assurances françaises auraient-elle trouvé le précieux sésame qui leur permettra enfin de déployer des programmes de prévention dignes de ce nom ? Les groupes travaillent depuis des années sur leurs données de remboursement santé afin de modéliser les consommations de leurs assurés et d’optimiser la gestion de leurs portefeuilles. Leurs data scientists raffinent désormais ces analyses grâce aux techniques du big data. Romain Gauchon veut aller un pas plus loin. Le jeune homme, qui réalise une thèse à l’université Lyon 1, a construit un modèle de prévention ciblée à partir de données de consommation santé.

« Après une première chute, les personnes âgées ont par exemple plus de risque de tomber à nouveau, avance le thésard. Il peut alors être pertinent de leur proposer un programme de sport adapté pour éviter cette rechute. Or, si nous ne disposons pas des données médicales des assurés, nous connaissons leur consommation en santé, grâce aux remboursements. Je tente d’agréger ces données et de les faire parler pour cibler précisément les segments de population concernés. »

Le chercheur part des prestations que la compagnie a versées à ses assurés. Il traduit ces données en autant de visites chez le médecin, le dentiste, l’opticien, le kinésithérapeute… En parallèle, les assurés sont répartis en sous-catégories en fonction de leur sexe et de leur statut (actif ou retraité). « Pour classifier les assurés, nous avons élaboré une méthode en deux temps, inspirée de l’analyse de texte (text mining), décrypte Romain Gauchon. Nous comptons le nombre de consommations en santé de chaque salarié. Cela donne une matrice de grande taille avec environ 150 colonnes. Nous la réduisons une première fois en suivant la méthode de factorisation de matrice positive (NMF), qui nous permet d’obtenir une vingtaine de colonnes, représentant des groupes d’actes. Nous classifions ensuite les assurés en utilisant la méthode des cartes de Kohonen. Les assurés sont alors répartis en une quinzaine de groupes représentant les comportements de consommation du portefeuille. »

Personnaliser la prévention

Si l’assuré n’a pas donné de consentement pour l’utilisation de ses données, la compagnie se contentera de lui proposer un programme de prévention adapté. Si l’assuré a donné son consentement, il pourra recevoir des alertes personnalisées en fonction de l’évolution de sa santé.

Travailler sur leurs propres données permettrait aux assureurs de contourner la contrainte d’un cadre français très strict en termes d’accès aux données publiques de santé. Ces dernières (Assurance maladie, hôpitaux, causes de décès, handicap) sont regroupées dans le nouveau Système national de données de santé (SNDS) depuis 2015. 1,2 milliard de feuilles de soins et 11 millions de séjours hospitaliers l’alimentent annuellement. Mais deux limites ont été posées d’emblée à son utilisation. Les laboratoires ne peuvent pas y avoir accès pour promouvoir des produits de santé, ni les assureurs pour tarifer leurs risques. Pour travailler sur le fichier, ils doivent ainsi passer par un tiers de confiance qui s’engage à respecter la protection de la vie privée des personnes.