La lecture anapath par l’IA : impressionnant !

Guillaume Assié, Paris

Thomas Walter, Mines Paris, Institut Curie

Thomas Walter est un électron libre, mathématicien de haut vol dans le champ des mathématiques appliquées, concepteur d’une partie importante des technologies décrites ci-dessous, et en même temps pédagogue et chercheur aux capacités remarquables d’échange… mêm avec les médecins non « matheux » ! Son sujet, c’est de développer des stratégies de deep-learning pour interpréter l’histologie en santé.
Les applications sont de trois ordres : (i) création d’outils pour l’interprétation de lames histologiques (diagnostic, le grading,….) ; (ii) prédiction d’anomalies moléculaires à partir de caractéristiques morphologiques ; (iii) prédiction de survie ou de réponse aux traitements (mais d’autres paramètres non histologiques peuvent être d’importance majeure).
Pour l’interprétation histologique, des travaux de grading de tumeurs (cancer du col de l’utérus et cancers ORL) ont été présentés. L’apprentissage fait sur des centaines de lames étiquetées chacune par son grade histologique, conduit à des bonnes performances (AUC vers 0.8 à 0.9). Pas mieux qu’un anatomopathologiste expert qui a le temps nécessaire pour l’examen minutieux de toute la lame, mais utile et voire mieux qu’un non expert ou … lorsque le temps est limité. Le positionnement dans la routine clinique demande des évaluations spécifiques, en termes de performance, de coûts et de positionnement par rapport aux humains
Pour les prédictions moléculaires, un exemple de prédiction du déficit en recombinaison homologues (anomalie de réparation de l’ADN) dans les cancers du sein et de l’ovaire a été présenté, avec de bonnes performances. Cet exemple fut l’occasion de présenter la problématique des biais. L’exemple classique est celui du réseau de neurones distinguant les loups des chiens Husky. Bonne performance… liée en fait à la détection de la neige dans l’arrière plan, plus fréquemment associée aux images de loups sur le jeu d’entrainement ! Les facteurs confondants sont légions, et sont l’ennemi principal du chercheur. Le plus difficile est d’identifier ces biais. Lorsqu’on les a vus, des méthodes de correction performantes existent.
L’identification des biais s’intègre dans le problème plus général de l’interprétabilité des résultats proposés par le réseau de neurones. En effet, une des limites abordées à ces systèmes est l’aspect « boite noire ». Une solution est de « voir » ce que la machine « voit ». Pour cela, la représentation que se fait le réseau de neurones des caractéristiques discriminantes d’une image peut être décodée en image interprétable par un humain, selon le processus inverse d’endocage des capacités discriminatives par l’apprentissage (stratégie d’« activation maximisation »). On voit alors comment la machine associe une image à une classe particulière. Certes, elle ne raisonne pas logiquement, mais fonctionne par association. Dans la figure, on peut voir à quelles caractéristiques d’image la machine associe différents grades du cancer du col de l’utérus. Ce qui est bluffant, c’est que personne n’a expliqué à la machine l’existence des noyaux, des cellules, de leur alignement dans le tissu normal, des halos cytoplasmiques dans les dysplasies…. La machine a déduit ces caractéristiques morphologiques de son apprentissage (et ignore toujours ce qu’est un noyau !).

 


Figure : représentations des aspects typiques des différents grades du cancer du col de l’utérus. Panels inférieurs : aspect typique en histologie. Un exemple est donné pour chaque grade. Panels supérieurs : visualisation de la représentation créé par le réseau de neurones des caractéristiques discriminantes de chaque grade, à l’issue de son apprentissage à partir de milliers d’exemples (ftom Lubrano et al, 2022, https://doi.org/10.1007/978-3-031-25082-8.)

Pour les curieux, voici des aspects plus techniques développés dans cet atelier. Le deep-learning (apprentissage profond) est une technique pour faire apprendre aux machines (machine learning) à reconnaitre des motifs en s’appuyant sur un grand nombre d’images (exemple : images d’animaux) étiquetés (exemple : type d’animal représenté sur chaque image). La particularité du deep-learning est de recourir à des réseaux de « neurones » virtuels capables d’interpréter des images. Comment ça marche ? Par des couches de « neurones » itératives. En entrée du réseau de neurones (première couche), l’ensemble des pixels de l’image. Chaque « neurone » est une fonction mathématique faisant la somme de valeurs d’entrées de « neurones » de la couche précédente multipliées par des coefficients propres à chaque connexion. En combinant un grand nombre de « neurones », les couches itératives de « neurones » appliquent différents filtres, puis réduisent l’information par combinaison de points voisins. Ce processus est répété plusieurs fois, jusqu’à atteindre une information simplifiée sous la forme d’une colonne de nombres appelée vecteur représentatif, et qui encode toutes les caractéristiques de l’image. Le vecteur représentatif de l’image d’entrée est confronté à l’étiquette fournie pour l’image (exemple: type d’animal représenté), cette étiquette étant fournie par l’utilisateur du réseau de neurone, et codée en un vecteur représentatif attendu, appelé « vérité de terrain ». Au départ, le vecteur représentatif de l’image a une valeur qui n’a aucun sens, lié aux valeurs de départ des coefficients des neurones. Car au départ ces coefficients sont aléatoires. Un processus de modification des coefficients des neurones est alors appliqué (apprentissage), jusqu’à ce que les valeurs du vecteur représentatif soient proches du vecteur attendu. Ce processus appliqué à des milliers d’exemples conduit à des capacités impressionnantes d’interprétation des images (exemple : identifier le type d’animal sur une image d’animal), notamment sur des images que le système n’a jamais « vues » pendant l’apprentissage.

Comment appliquer cette technologie pour des images histologiques ? La première considération est de découper l’image de la lame histologique (exemple : grossissement x1) en une multitude de « tuiles » (exemple : grossissement x10), permettant de visualiser les cellules et l’architecture du tissu. Comment combiner les tuiles d’une même lame ? Jusque récemment, l’algorithme commun était le « tile embedder » en « supervision faible », qui permet de combiner toutes les tuiles d’une même lame histologique en un seul vecteur. Le réseau de neurones utilisé pour cette combinaison des tuiles (étiquetées par le nom de la lame dont elles proviennent) est un réseau de neurones pré-entrainé à lire des images, notamment à partir de la database ImageNet, regroupant des millions d’images d’Internet, étiquetées en plus de 1000 classes distinctes. A noter que ces images d’entrainement d’ImageNEt n’ont rien à voir avec l’anapath, mais ça marche ! Le système génère alors pour chaque tuile un vecteur aggloméré qui représente au mieux toute la lame.
Depuis 2020, la combinaison des tuiles se fait par auto-supervision puis combinaison. L’auto-supervision, c’est le traitement des tuiles sans label (pas d’information sur la lame d’origine). Chaque image de tuiles conduit à la création de plusieurs images « perturbées » (rotations, floutages, changements de couleurs, occultation d’une partie de l’image…). Ces images perturbées sont soumises à un réseau de neurones entrainé afin que deux images perturbées prises au hasard conduisent à des valeurs éloignées lorsqu’elles proviennent de tuiles différentes, et à des valeurs proches lorsqu’elles proviennent de la même tuile. L’objectif est d’atteindre une représentation générique des tuiles indépendante de la perturbation induite. Après auto-supervision, la 2ème étape est l’agglomération des tuiles d’une même lame en un score. Pour cela, chaque vecteur représentatif des tuiles (issu d’un réseau optimisé par auto-apprentissage) est combinée en un score. La somme de ces scores pondérée par des coefficients conduit à une représentation de la lame. Pendant l’entrainement, le coefficient de pondération est petit si la tuile n’est pas importante, et grand si la tuile importante pour la classification de la lame. Et ça marche bien !

Une limite est le nombre de lames nécessaires à l’entrainement des réseaux de neurones. Une solution technique récente s’appelle « Giga-SSL ». Il s’agit d’un réseau de neurones entrainé par l’équipe de Thomas Walter sur toutes les images anapath annotées d’une grande banque (TCGA), qui est capable d’encoder les images histologiques dans un vecteurs de 256 valeurs. Cela permet d’alléger considérablement l’apprentissage, l’infrastructure informatique, et le nombre de lames histologiques nécessaires à l’apprentissage (car pré-entrainement). Quelques dizaines de lames spécifiques à la question posée peuvent suffire pour commencer à atteindre une performance de classification.
En termes de ressources de calcul, un apprentissage à partir d’un millier de lames nécessite aujourd’hui quelques dizaines d’heures sur un serveur avec plusieurs cartes GPU. A noter également l’enjeu de confidentialité, applicable aux lames histologiques, qui ferme l’accès à bien des serveurs de calculs dont la sécurité informatique n’est pas au niveau requis pour des données de santé.

En résumé, un voyage bluffant dans l’intelligence artificielle, sa vitesse de progrès et ses performances.