Entretien réalisé par Gérard Assayag, Andrew Cerzso et Franck Madlener, pour le Symposium "Sentiers qui bifurquent, la complexité dans les arts et la science".
Chap. 1 - Mesurer la complexité ou la signification
Rencontre avec Henri Atlan. Chapitre 1 par Ircam-CGP
Quand on mesure la complexité d’un algorithme, donc d’un programme ou d’une description algorithmique de quelque chose, on tombe sur ce paradoxe que la complexité maximale est réalisée par une suite aléatoire infinie. C’est-à-dire quelque chose qui n’a aucune signification ! Ça ne gène en aucune façon les théoriciens de l’informatique. Ils ont raison. Ça ne les gène pas tout simplement parce que la signification du programme ce n’est pas leur problème. N’importe quel programme a par hypothèse une signification, c’est la tâche qu’il s’agit de réaliser. C’est la tâche que le programmeur s’est donnée à lui-même pour le réaliser ; c’est ça sa signification, et puis on n’en parle plus. Après il s’agira seulement de savoir si le programme réussit ou non à effectuer cette tâche. S’il réussit, on dira qu’il est bon et on mesurera sa complexité par sa longueur, ou son temps de calcul, etc. S’il ne réussit pas on dira qu’il n’est pas bon. La signification, elle est posée d’emblée, elle n’est pas contenue à l’intérieur même de la théorisation. La théorie va se borner à mesurer le temps de calcul, la taille de la mémoire, etc., nécessaire pour réaliser un tâche. Plus le temps de calcul minimum sera grand, plus on dira que cette tâche est complexe.
Si on tient absolument à garder l’informatique comme source de métaphore pour la biologie, alors se pose une question, qu’avec un collègue qui s’appelle Moshe Koppel nous avons souligné : Vaut-il mieux garder cette métaphore de l’ADN comme programme, mais alors considérer la fonction de son environnement cellulaire comme celle d’un interpréteur ? Ou bien faut-il dire que les ADN ne sont pas des programmes mais des données, des données stockées de manière statique qui attendent d’être traitées par un programme ? Dans ce cas, le rôle du reste de la cellule est celui du programme qui traite les données stockées dans l’ADN.
On peut s’amuser à comparer les avantages et les inconvénients de ces deux métaphores alternatives. Très probablement, dans la réalité, c’est un mélange des deux sur des échelles de temps différentes. Il est possible qu’à une échelle de temps relativement courte l’ADN constitue des données statiques traitées par la cellule, mais sur une échelle de temps un peu plus longue ce fonctionnement de la cellule va modifier l’état d’activité de l’ADN qui joue alors le rôle de programme au moins un certain temps. C’est ce que nous avons appelé un réseau évolutif, un réseau dont la structure elle-même évolue au fur et à mesure de son exploitation ; ce qui laisse la place à une évolution en partie imprévue.
Quand on a à faire à un objet naturelle, on ne sait même pas si il a un but. A priori, il n’en a pas. Si on se pose la question de sa complexité et à rester dans un cadre inspirée de l’informatique, alors on doit se poser la question de sa signification. Dans la structure que j’observe qu’est-ce qui est porteur de signification ? On a été amené, on est pas les seuls, il y a quelqu’un comme bennett qui appelle ça la théorie de la profondeur informatique, à élaborer une théorie de la signification où nous montrons comment il faut distinguer une partie programme et une partie données du point de vue de la signification. C’est la partie programme qui porte la signification de ce qui va être réalisé. Les données peuvent varier suivant les circonstances, donc des objets différents peuvent être produits par un même programme ; ils auront une même structure porteuse de la même "complexité porteuse de signification" que nous avons appelé "sophistication".
Cette définition a l’avantage de supprimer le paradoxe de la "complexité" d’une suite aléatoire, car elle a une "sophistication" nulle. Le programme nécessaire pour produire une suite aléatoire se réduit à l’imprimer, pour générer une suite aléatoire bien déterminée il suffit de la recopier, il n’y a pas d’autre possibilité. C’est bien pourquoi sa complexité algorithmique est élevée, parce qu’on ne peut pas compresser cet algorithme pour la produire. L’algorithme pour la produire est aussi long qu’elle. Au contraire, si on fait cette distinction entre programme et données, la donnée c’est la suite elle-même et le programme "imprimer". Là la longueur du programme se réduit à presque rien tandis que les données sont différentes. Le programme va pouvoir produire des classes d’objets qui auront la même structure ou la même complexité porteuse de signification, c’est à dire la même sophistication tout en étant des objets différents.
Si on incorpore ces notions-là à ces métaphores projetées sur la biologie, alors on s’aperçoit qu’il vaut mieux considérer les ADN comme données et la structure du réseau métabolique, la structure du réseau de réactions chimiques qui se produisent à l’intérieur du cytoplasme comme un ordinateur parallèle ; un réseau computationnel qui utilise les données de l’ADN. Ceci colle un peu mieux parce que la structure du réseau métabolique est la même chez tous les êtres vivants à quelques petites variantes près. La biochimie est à peu près la même partout. Ce qui différencie une espèce d’une autre, c’est en effet l’ADN.
Chap. 2 - Le programme génétique : limite d’une métaphore informatique pour la biologie.
Rencontre avec Henri Atlan. Chapitre 2 par Ircam-CGP
Il s’agissait d’utiliser la métaphore d’un programme d’ordinateur pour décrire le fonctionnement d’organismes, quels qu’ils soient, pas nécessairement humains. Celui d’une cellule, d’un groupe de cellules en développement, d’un embryon, comment un oeuf va devenir un organisme beaucoup plus compliqué que l’oeuf initial, etc. Comment décrire ces phénomènes-là ? A la suite d’un véritable glissement de sens entre la notion d’information génétique et de code génétique, qui s’est s’établi dans les 60s avec la découverte de la structure des ADNs et des mécanismes de synthèse des protéines, là en effet, on a constaté une réalisation matérielle de la notion la plus classique d’information probabiliste de Shannon.
Les séquences de nucléotides portées par les ADNs réalisent des séquences, avec quatre unités, à propos desquelles on peut très facilement faire des calculs de quantité d’information de Shannon. On pouvait, on peut toujours, parler d’information génétique dans ce sens-là. A partir de ces séquences d’ADN jusqu’à la synthèse des protéines, on a typiquement la constitution d’une voie, d’un canal de communication, de transmission d’information, d’une entrée à la sortie, l’entrée étant l’ADN, la sortie étant les protéines. C’est parfaitement rigoureux, il ne s’agit absolument pas d’une métaphore pour le coup. Il s’agit d’une réalisation matérielle de ces concepts mathématiques probabilistes de la théorie de l’information de Shannon.
Là où ça a complètement dérapé, c’est à partir de cette notion d’information génétique, de code génétique. Le code génétique est une découverte assez bouleversante. Cette communication entre les structures linéaires d’ADN et les structures linéaires de protéines, par l’intermédiaire d’un code au sens rigoureux du terme, s’est avérée la même dans tous les organismes vivants, depuis la mite jusqu’à l’éléphant comme disait Jacques Monod, c’est une découverte jusqu’à aujourd’hui tout à fait bouleversante, qui témoigne d’une unité du monde vivant tout à fait extraordinaire.
A partir de là, la vieille question de l’embryologie, c’est-à-dire : comment s’effectue le développement à partir d’une cellule initiale, d’un oeuf fécondé, qui se divise et se divise et qui petit à petit produit des cellules très différentes, des tissus, des organes, et un organisme adulte très différencié ? Comment s’effectue ce processus ? La question est d’autant plus taraudante - elle l’était et l’est encore beaucoup dans la mesure où on ne connait pas tous les mécanismes - qu’il y a là l’apparence d’une finalité. Un oeuf de souris va toujours donner une souris. Un oeuf de poule va toujours donner une poule. Un oeuf d’homme va toujours donner un homme. Comme si il y avait déjà, contenu dans la cellule initial, l’avenir. C’est typiquement le schéma d’une action finalisée. Nous projetons le but d’abord et c’est le but qui n’existe pas encore qui détermine ce que nous faisons. Là, il semblerait que ce soit la même chose, or ça c’est tout à fait inadmissible pour une science mécanique comme est la nôtre, comme toutes les sciences depuis trois siècles. Comment expliquer cette apparence de finalité ?
Là, il y a eu une espèce de jeu de mot, on est passé de la téléologie, le finalisme classique qui remonte à Aristote, à la téléonomie, qui est un nouveau mot forgé pour désigner quelque chose qui a l’allure d’une finalité mais qui n’en est pas une. L’exemple qui s’est imposé tout de suite, c’est l’exemple de l’ordinateur. L’ordinateur fonctionne en étant déterminé par son programme, avec un programme lui-même finalisé, écrit par quelqu’un en vu de réaliser quelque chose. Mais l’ordinateur lui-même fonctionne de façon parfaitement mécanique, par une succession normale de causes et d’effets, où ce n’est pas l’effet, où ce n’est pas son but final qui est la cause de son fonctionnement.
La métaphore s’est imposée. Dans les organismes vivants il y a de l’information, les ADNs, il y a un code, encore mieux. Le problème presque éternel de la biologie est résolu en disant, les organismes vivants fonctionnent comme des ordinateurs, en étant programmés. Ils ont l’air d’être finalisés, mais ils ne le sont pas, ils ne font qu’exécuter de façon mécanique un programme. Mais dès l’origine, vinrent les objections. Les auteurs de cette métaphore eux-mêmes mettaient "programme" entre guillemets. Certains, comme François Jacob, soulignaient qu’il ne fallait pas prendre ça au pied de la lettre, que c’était des programmes très particuliers capables de se programmer eux-mêmes, qu’ils avaient besoin de produits de leur lecture et de leur implémentation pour pouvoir être lus et implémentés, etc.
Très vite les guillemets sont tombées et c’est devenu une réalité dure comme le fer. Et à la question évidente : les programmes sont écrits par quelqu’un, alors qui a écrit le programme génétique ? La réponse s’est imposée très vite : on a dit, c’est la sélection naturelle. C’est l’évolution par l’intermédiaire de la sélection naturelle qui produit ces programmes génétiques. C’est un dogme qui est resté comme ça pendant très longtemps qui n’a commencé à se dissiper qu’il y a une dizaine d’années.
Moi je faisais partie d’une minorité de biologistes, qui trouvaient intéressante la métaphore en question, dans la mesure où comme toute métaphore elle avait une valeur heuristique évidente. Elle déclenchait tout un tas d’expérience de plus en plus intéressantes, et de plus en plus fécondes par dessus le marché, mais il ne fallait pas la prendre littéralement.
Pourquoi ? D’abord, parce que vous avez beau regarder à la loupe les séquences d’ADN quelles qu’elles soient, vous n’avez là rien de plus qu’une séquence équivalente à une série de "0" et de "1". Il n’y a aucun langage de programmation que qui que ce soit ait été capable de déchiffrer. Programme d’acord, mais écrit dans quel langage ? On ne sait pas. D’autre part, il y avait le fait que les ADNs eux-mêmes, et ça on l’a appris assez vite, tout seuls ne font rien. Comme le disait Lewontin, ils ne sont même pas capables de se reproduire eux-mêmes. Ils sont chimiquement assez inertes, contrairement aux protéines qui sont très actives, contrairement même aux ARNs. Les ADNs sont assez inertes et jouent le rôle d’une mémoire statique, ce qui avait été signalé dès l’origine, en particulier par Jacques Monod qui renvoyait beaucoup de questions qui lui était posées en disant : attention, il ne s’agit là que d’une mémoire, une bande magnétique, rien de plus.
Pourquoi cette métaphore du programme génétique s’est-elle imposée, a-t-elle durée aussi longtemps ? Simplement parce qu’elle était commode, c’est tout. Elle permettait de ne pas s’accrocher à un problème purement théorique et d’aller de l’avant de faire des découvertes sur comment manipuler les ADNs, comment modifier les effets de tel ou tel gène, etc., tout ce qui a donné lieu à ce qu’on connait aujourd’hui comme les technologies de l’ADN qui sont évidemment extrêmement puissantes.
Maintenant, comme il arrive souvent, ce genre de théorie butte sur ses propres limites. Pendant très longtemps cette discussion n’intéressait personne, sauf quelques philosophes, dans la mesure où elle était purement académique : est-ce un programme ou non ? Finalement, qu’est-ce que ça change, du moment qu’on peut travailler et avancer ? Ca a commencé à intéresser un peu plus de personnes, quand se sont posés les problèmes qu’on appelle de la bioéthique, ou éthique biomédicale, c’est-à-dire quand ce sont posés les problèmes de définition de la personne.
Tout naturellement, un certain nombre qui prenaient cette métaphore au sérieux, en sont arrivés à diviniser l’ADN. On a eu droit à des expressions fantastiques comme l’ADN le sanctuaire des gènes, le patrimoine génétique. Quand on réfléchit à ce que veut dire patrimoine en général et qu’on projette ça sur ces pauvres molécules inertes ... il y a eu aussi l’essence surtout, l’essence de l’espèce humaine, l’essence de l’individu. Les empreintes génétiques vous montrent bien que l’ADN c’est l’essence de l’individu.
Quand on dit ça on oublie tout simplement que là on fait une confusion entre le signe et la cause. C’est comme si on disait que les empreintes digitales sont l’essence de l’individu. Or les empreintes génétiques sont encore moins individuelles que les empreintes digitales puisqu’elles sont identiques chez de vrais jumeaux, alors que leurs empreintes digitales sont différentes.
Et puis il y a eu l’accumulation de découvertes techniques qui sont venues contredire de façon frontale ce dogme du programme génétique. Parmi ça, il y a le clonage reproductif ; la naissance de Dolly était considérée comme une impossibilité pas seulement technique ..., mais aussi une impossibilité théorique : une cellule adulte est le résultat de l’exécution du programme génétique, et donc les ADNs de cette cellule adulte sont dans un état d’activité tel qu’ils ne peuvent déterminer que la structure et le fonctionnement d’une cellule adulte. Ils ne peuvent pas se remettre dans l’état de l’ADN de la cellule initiale, de la même manière qu’un programme ne peut pas se remettre tout seul à l’état zéro de son exécution. Donc c’est absolument impossible : Dolly est arrivée et a montré que c’était possible.
Ca a été un grand bouleversement, pas seulement à cause des implications éthiques, tout le monde s’est précipité la dessus en disant on va pouvoir cloner des êtres humains, etc., mais sur le plan théorique ça a eu un effet tout à fait intéressant justement, et important, parce que là, tout à coup, on avait la preuve que ce qui allait déterminer le fonctionnement de l’ADN de la cellule initiale et bien c’était le cytoplasme de l’ovule. Et le cytoplasme, c’est le cytoplasme, c’est-à-dire surtout des protéines.
Un mot qui avait totalement disparu des manuels de biologie pendant 30ans est réapparu : le mot épigénétique. Les étudiants n’en avait jamais entendu parlé. Ça faisait partie de l’histoire de la biologie du 18e siècle et un petit peu du 19e. Et c’est revenu par la force des choses. Pour expliquer comment les gènes de la cellule initiale vont être déterminés eux-mêmes par leur environnement moléculaire non génétique, pour pouvoir déterminer la suite des évènements dans le développement embryonnaire, on a bien été forcé de revenir sur cette notion d’épigénétique. En plus maintenant, on commence à découvrir, parce qu’on les cherche, des mécanismes moléculaires de régulation épigénétique.
Chap. 3 - Auto-organisation et extériorité
Rencontre avec Henri Atlan. Chapitre 3 par Ircam-CGP
L’organisation d’un système c’est sa fonction. Sa fonction se trouve là dans le système, elle ne peut changer que sous l’effet de modifications externes. L’organisation d’un système ne peut pas être une auto-organisation. La modification de son organisation ne peut venir que de l’extérieur. Si elle vient de l’intérieur, ça veut dire qu’elle obéit elle-même à une méta-fonction, et cette méta-fonction elle-même ne va pas changer, et ainsi de suite. Ce que j’ai fait avec d’autres, c’est de dire en effet, que le changement d’organisation ne peut venir que de l’extérieur, mais que ce qui vient de l’extérieur n’est pas toujours un programme. Ça peut être du bruit précisément. Ce bruit peut être intégré à un certain état d’organisation du système de façon telle que le système ne sera pas détruit mais va évoluer vers un autre état d’organisation. D’où l’auto-organisation par le bruit.
Toute la question est de savoir ce qu’on entend par intégrer. J’avais eu droit, j’étais très honoré par ça, je le suis toujours, à une critique amicale mais très profonde de Jean Piaget qui avait fait la remarque parfaitement exacte que si un système était capable d’intégrer du bruit de telle sorte de ne pas être détruit mais au contraire de changer d’état d’organisation, ça voulait dire que d’une certaine façon, ce changement d’état d’organisation se trouvait déjà à l’intérieur du système. Dans l’absolu c’est exact, sauf que pour l’observateur ce n’est pas comme ça. Il avait mis le doigt sur cette question importante de ce que veut dire intégrer du bruit, ou intégrer de l’environnement.
Chap. 4 - Sous-détermination de la théorie par les faits : l’autre complexité.
Rencontre avec Henri Atlan. Chapitre 4 par Ircam-CGP
Il y a un aspect de la complexité des phénomènes naturels dont on n’a rien dit jusqu’à présent, et pourtant je pense que c’est peut-être un des plus importants sinon le plus. C’est celui qui apparaît dans les tentatives de modélisation des systèmes naturels complexes. On a à faire à un système naturel avec beaucoup d’éléments en interaction. En plus il est dans son environnement, donc pour l’observer on est relativement limité parce qu’on ne peut pas modifier autant qu’on le voudrait différents paramètres qui déterminent son environnement. Donc on a un nombre d’observations relativement limité par rapport, au contraire, à un système isolé comme un système artificiel sur lequel on peut faire des mesures en faisant varier différentes variables, presque autant qu’on voudrait.
Non, là on a à faire à un système constitué par beaucoup d’éléments en interaction, tel que le nombre d’observations qu’on peut faire n’est pas démesuré. Et bien il y a là une difficulté de la modélisation qui fait apparaître un aspect de la complexité assez inattendu qui est ce qu’on appelle la sous-détermination de la théorie par les faits. Et ça, malheureusement, beaucoup de nos collègues modélisateurs négligent complètement cet aspect des choses, avec des conséquences parfois très graves.
De quoi s’agit-il ? C’est quelque chose qui avait été signalé il y a déjà longtemps par Duhem à propos des théories physiques, qui avait été repris par Quine à propos des théories de la traduction, et que moi, à mon niveau, j’ai rencontré comme ça, alors que j’étais en train de faire des modèles de systèmes immunitaires. Et encore, même pas dans leur totalité, mais de partie de systèmes immunitaires, réduit à quelques populations de cellules, en interaction les unes avec les autres et qui produisaient des états différents suivant que l’organisme était vacciné ou stimulé par tel antigène ou par tel autre, etc.
Pour faire des modèles de ces systèmes, dont la complexité a priori n’était pas très très grande. Par exemple il s’agissait de modéliser des systèmes constitués par 5, 6, 7, 8 unités, pas beaucoup plus. Alors imaginez quand il s’agit de plusieurs milliers. Là, on rencontre aussitôt un phénomène extraordinaire qui est que le nombre de modèles qu’il est possible de fabriquer, par exemple à partir de 5 unités interconnectées, est en général beaucoup plus élevé que le nombre d’états observables du système lui-même.
Ce qui veut dire que dans l’immense majorité des cas, la difficulté n’est pas de trouver un modèle, au contraire, elle vient du fait qu’on en a beaucoup trop. On va avoir beaucoup de modèles différents qui prédisent les mêmes observations, sans qu’on ait le moyen de trouver d’autres observations qui vont permettre de trancher pour aboutir à l’état idéal où on a tout éliminé sauf un.
Dans le cas des systèmes immunitaires ça cause quelques petits ennuis. mais c’est pas inutile non plus, parce qu’on ne peut pas dire n’importe quoi. Même s’il y a plusieurs modèles possibles, ça ne veut pas dire que n’importe quoi peut marcher. C’est quand même intéressant, ça peut suggérer d’autres expériences pour essayer de voir si on ne peut pas en éliminer encore quelques uns au passage. On a quelques fois cette chance, alors c’est formidable. Trouver qu’un modèle est faux, c’est extraordinaire tellement on en a trop.
Actuellement, toutes les grandes discussions sur l’environnement et surtout sur le changement climatique, reposent sur des modèles de systèmes naturels très complexes, à propos desquels on ne dispose que d’un nombre relativement limité d’observations. Il est bien évident que tous ces modèles rendent compte des observations dont on dispose, qui concernent le passé, à partir desquels on fait des prédictions. Et puis on fait aussi des interprétations.
Par exemple, on dit que nous avons la preuve que le réchauffement existe et va se prolonger d’une façon ou d’une autre, et que nous avons la preuve que la part de l’activité humaine dans le changement climatique est déterminante, disons très importante. D’où sort cette preuve ? Elle vient du fait qu’on a introduit dans le ou les modèles dont on dispose un certain nombre de variables qui dépendent de l’activité humaine, et grace à ça on a obtenu des bons modèles. Ca ne veut pas dire que ces modèles sont les seuls bons modèles. On peut probablement obtenir, on le fait de plus en plus, des résultats analogues en introduisant d’autres variables qu’on avait négligées jusqu’à présent ou pas, on a peut-être seulement changé leur poids, et obtenir le même résultat.
Cette sous-détermination des théories par les faits, ou dans ces cas-là des modèles par les observations, est un phénomène de complexité extraordinaire et qui est d’autant plus important qu’on peut mesurer cette sous-détermination en mesurant l’écart incroyable qu’il y a entre le nombre de modèles possibles et le nombre d’observations à notre disposition. Cette mesure est approximative, mais peut donner un ordre de grandeur. On a à faire là à une complexité particulière qui tient à la difficulté de modélisation et qui est d’autant plus grande qu’on a à faire à un phénomène constitué d’un grand nombre de paramètres, ou de variables plus exactement, et qui est unique, qui ne se reproduit pas. S’il se reproduit comme dans une expérience de laboratoire, là on peut se débrouiller pour multiplier les observations. Tandis que là non.
Un phénomène unique, produit par un grand nombre de variables, à propos duquel on ne dispose que d’un nombre limité d’observations, nous met dans une situation de complexité extrême qui se traduit par le trop plein de bons modèles et non pas du tout par la difficulté d’en trouver. Si on transpose cette situation de trop-plein de bons modèles, non pas à la situation du modélisateur mais à la situation du système lui-même qu’il s’agit de modéliser, alors le fait qu’un grand nombre de modèles vont prédire les mêmes observations, ça veut dire qu’un grand nombre de structures réelles naturelles, un grand nombre d’organisations naturelles, vont converger vers les mêmes états.
Autrement dit, c’est le signe d’une grande redondance fonctionnelle dans le système qui est un caractère heureux pour le système. Les mêmes attracteurs sont produits par des dynamiques complètement différentes, par des structures complètement différentes. C’est peut-être ça, pour ce qui nous concerne, si on considère nos cerveaux non pas comme des sources de modèles mais comme des systèmes qu’il s’agirait de modéliser, c’est peut-être ça qui explique une forme d’intersubjectivité qui fait que, alors même qu’on a des structures cérébrales complètement différentes, et bien que nous pouvons avoir un sens commun . . l’impression de se comprendre.