Ou pourquoi la causalité est indispensable à l’IA
En 2023, avec ChatGPT, l’homme s'est en quelque sorte donné la possibilité d’anéantir sa propre intelligence en laissant le robot penser à sa place. Le succès spectaculaire des transformers dans le traitement du langage naturel ne doit cependant pas masquer certaines failles. « La plus grande pierre d’achoppement rencontrée par les machines pour parvenir à une intelligence de type humain est leur incompréhension des relations
causales », affirmait Judea Pearl en 2019[1]. En effet, les intelligences artificielles les plus performantes peuvent être déroutées face à des situations dont le traitement relève pour nous du bon sens, faute d’inférer des relations de causalité directes. Est-il possible de mettre au point des mécanismes permettant de restituer artificiellement la relation de cause à effet ? C’est tout le sujet de l’inférence causale.
Alors que l’intelligence artificielle générative apprend à restituer des variantes de motifs connus à partir de corrélations sur de grands volumes de données, l’inférence causale procède par examen des invariants sur des arbres de causalité et conception d’expérimentations destinées à les tester. X cause Y si, étant donné X = 0, on obtient une distribution donnée de Y, et étant donné X = 1 et toutes choses égales par ailleurs, on obtient une autre distribution de Y. X est appelée variable instrumentale. Pour faire en sorte qu’une IA reconnaisse - et sache créer - une image de chat, elle doit examiner un grand volume d’images. Lorsqu’elle a appris à reconnaître un chat, elle ne saura pas comment généraliser les caractéristiques pour reconnaître, par exemple, un autre félin. L’IA causale, elle, procède par création d’un arbre ascendant qui lui permet de différencier tous les objets (le chat a des poils, des griffes, des moustaches, etc.). Les deux types d’IA sont complémentaires, dans le sens où l’IA générative peut proposer des causes vraisemblables et explorer des hypothèses contrefactuelles par simulation. Certaines plateformes comme Dynatrace ont même l’ambition de faire converger les deux paradigmes pour l’automatisation du cloud au sein de l’IA hypermodale.
Le grand avantage de l’intelligence causale - dont la DARPA , la Defense Advanced Research Projects Agency américaine, n’a pas manqué de voir les conséquences opérationnelles - est qu’elle identifie des leviers d’action. Judea Pearl a donné à ce concept la forme d’un nouvel opérateur logique : do{}. Si nous avons établi que le cancer du poumon est essentiellement lié à des facteurs génétiques et à la tabagie, alors nous pouvons en réduire l’incidence en agissant sur cette dernière.
Dans certains domaines, la découverte de ces leviers est indispensable. C’est le cas par exemple de la publicité programmatique en ligne. En effet, surtout après la disparition prochaine des cookies, comment attribuer à qui de droit le bénéfice d’une conversion ? L’insuffisance des méthodes de première génération, qui rattachent chaque clic à une unique interaction, est reconnue par l’ensemble des acteurs du domaine. Les approches orientées données sont plus efficaces, mais ne rendent pas compte de l’enchaînement d’un parcours utilisateur[2]. Utilisant la régulation des enchères pratiquées par les plateformes de contenu comme variable instrumentale, Gui et al. montrent que le levier de conversion d’un affichage - soit la totalité des actions en ligne d’un utilisateur liée à cet affichage - serait plus proche de 110 % que de 600 % (estimation par les méthodes en vigueur)[3]. L’inférence causale a donc une tout autre vision de l’attribution que les méthodes statistiques classiques. Il est probable que Criteo doive une partie de son succès en tant qu'agrégateur d'offre publicitaire à une réévaluation de l’effet marginal de répétition (« incrémentalité ») d’une publicité auprès d’un utilisateur. Ses équipes ont procédé à cette attribution par un modèle causal[4] dans lequel seuls les clics sont porteurs de ventes, validé par comparaison de la vraisemblance inverse de leur modèle à celui du modèle du dernier clic[5] utilisé historiquement. À performances égales, la mise en production de ce modèle leur a permis de réduire le montant des enchères d’une campagne de 7,8 %, pour un montant de 7 millions d’euros. La même approche[6] permet de différencier les parts respectives de l’exposition à plusieurs publicités dans l’obtention de plusieurs conversions (figure ci-dessous).
Enfin, concernant les coûts d’expérimentation inhérents au paradigme causal, des méthodes permettant de généraliser les résultats obtenus sur un échantillon de campagnes devraient les amortir rapidement. Alors, est-il possible d’appliquer un tel raisonnement au parcours multi-canal, jalonné de multiples interactions avec une marque (affiches, prospectus, mails, boutiques, télévision, internet) d’un prospect ? Jusqu’ici, le fractionnement des attributions s’est révélé coûteux et décevant, mais de nouvelles entreprises mieux armées telles que Measured aux Etats-Unis ont repris le flambeau.
Plus profondément, l’IA causale va peut-être lever l’un des freins majeurs à l’utilisation de l’intelligence artificielle, y compris parmi les Data Scientists : l’opacité des algorithmes. Aujourd’hui, comme les mécanismes d’ajustement statistiques sont autonomes et n’obéissent pas à un raisonnement humain, leurs résultats ne sont pas directement explicables par notre logique. Or, la causalité est une des catégories de pensées fondamentales de notre esprit. Il paraîtrait dès lors naturel de vouloir doter la machine d’un mécanisme émulant les associations de cause à effet. Une autre illustration de la DARPA (ci-dessous) montre très bien l’apport potentiel de cette notion. Cependant, les asscientifiques s’en méfient, car, bien que nous utilisions la causalité de façon opératoire au quotidien, sa formalisation rigoureuse et surtout sa corroboration (au sens de Popper) sont délicates. Qui plus est, la « crise de la reproductibilité », notamment dans les essais cliniques en double aveugle, a fait apparaître la fragilité des conclusions de certaines études. La science se fonde donc exclusivement sur la corrélation, notion facilement quantifiable qui ne présuppose pas de la nature des relations entre les phénomènes étudiés. Lorsque l’IA causale sera au point et qu’elle viendra enrichir la palette des robots, ChatGPT ou ses successeurs auront sans doute encore bien des occasions de nous étonner.
Source : Vallverdú, J. (2020). Approximate and Situated Causality in Deep Learning. Philosophies, 5(1), 2.
[1] Judea Pearl, The book of why : the new science of cause and effect. Dana Mackenzie. [London], UK, 2019. ISBN 978-0-14-198241-0 “Machines' lack of understanding of causal relations is perhaps the biggest roadblock to giving them human-level intelligence.” [2] Romero Leguina, J., Cuevas Rumín, Á., & Cuevas Rumín, R. (2020). Digital Marketing Attribution: Understanding the User Path. Electronics, 9(11), 1822. MDPI AG. Retrieved from [3] Gui, G., Nair, H., & Niu, F. (2022). Auction Throttling and Causal Inference of Online Advertising Effects (arXiv:2112.15155). arXiv. [4] Bompaire, M., Gilotte, A., & Heymann, B. (2021). Causal Models for Real Time Bidding with Repeated User Interactions. Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining, 75‑85. [5] Le modèle du dernier clic, appliqué par les enchérisseurs « gourmands », présuppose qu’une vente est toujours attribuable au dernier clic sur une publicité qui la précède. [6] Lewis, R. A., & Wong, J. (2018). Incrementality Bidding & Attribution. SSRN Electronic Journal.
Yorumlar