banner

Nouvelles

May 04, 2023

Où en est-on de l'IA pour l'analyse d'images endoscopiques ? Décrypter les lacunes et les orientations futures

npj Digital Medicine volume 5, Article number: 184 (2022) Citer cet article

4577 accès

15 Altmétrique

Détails des métriques

Les développements récents de l'apprentissage en profondeur ont permis des algorithmes basés sur les données qui peuvent atteindre des performances de niveau humain et au-delà. Le développement et le déploiement de méthodes d'analyse d'images médicales présentent plusieurs défis, notamment l'hétérogénéité des données due à la diversité de la population et aux différents fabricants d'appareils. En outre, davantage de contributions d'experts sont nécessaires pour un processus de développement de méthode fiable. Alors que la croissance exponentielle des données d'imagerie clinique a permis à l'apprentissage en profondeur de prospérer, l'hétérogénéité des données, la multimodalité et les cas de maladies rares ou peu visibles doivent encore être explorés. L'endoscopie étant fortement dépendante de l'opérateur avec des résultats cliniques sombres dans certains cas de maladie, un système de guidage automatisé fiable et précis peut améliorer les soins aux patients. La plupart des méthodes conçues doivent être plus généralisables aux données cibles invisibles, à la variabilité de la population de patients et aux apparences variables de la maladie. L'article passe en revue les travaux récents sur l'analyse d'images endoscopiques avec l'intelligence artificielle (IA) et souligne les besoins actuels inégalés dans ce domaine. Enfin, il décrit les orientations futures des solutions d'IA complexes cliniquement pertinentes pour améliorer les résultats pour les patients.

L'endoscopie est une procédure de référence pour de nombreux organes creux. Il est principalement utilisé pour la surveillance des maladies, la surveillance de l'inflammation, la détection précoce du cancer, la caractérisation des tumeurs et les procédures de résection, les interventions de traitement mini-invasives et le suivi de la réponse thérapeutique. L'analyse d'images endoscopiques a commencé à attirer davantage l'attention ces dernières années avec un nombre excédentaire de méthodes basées sur l'imagerie endoscopique publiées dans la détection assistée par ordinateur (CADe)1,2,3,4,5, le diagnostic assisté par ordinateur (CADx)6,7,8,9,10,11 et la chirurgie assistée par ordinateur (CAS)12,13,14,15,16. Contrairement à d'autres données radiologiques (par exemple, rayons X, CT, IRM), l'imagerie endoscopique et son analyse est un sujet hautement spécialisé et difficile. L'imagerie endoscopique a des dépendances multifactorielles, y compris une grande dépendance de l'opérateur (par exemple, l'expérience et la formation), des problèmes liés à la portée (par exemple, la variabilité de la qualité de l'imagerie) et la dynamique de la scène (par exemple, la corruption imminente des images avec des artefacts graves, le mouvement des grands organes et les dérives de surface17). Les normes de qualité des interventions endoscopiques gastro-intestinales sont discutées dans plusieurs études de lignes directrices notables18,19. Certains travaux récents ont exploré des domaines d'apprentissage en profondeur pour automatiser les métriques afin d'évaluer la qualité de l'endoscopie. Ceux-ci sont particulièrement critiques pour quantifier les angles morts20,21. Alors que la reconstruction 3D basée sur SLAM a été utilisée pour générer des cartes du côlon18, la longueur et la surface du précurseur du cancer gastro-intestinal supérieur (GI), l'œsophage de Barrett, ont été quantifiées à l'aide d'une technique d'estimation de la profondeur basée sur l'apprentissage en profondeur22. De même, la tâche la plus cruciale pour les procédures chirurgicales mini-invasives (par exemple, la laparoscopie) est la compréhension et l'interprétation de la scène sous-jacente.

Bien qu'une reconstruction 3D d'organes creux soit vitale, elle est difficile à réaliser pour plusieurs raisons, notamment la déformation hautement non linéaire des organes, l'encombrement de la scène (par exemple, l'écoulement de fluide, le sang) et l'occlusion (par exemple, la graisse entourant la chirurgie du foie). Ainsi, la plupart des recherches se concentrent sur l'évaluation de scènes locales à l'aide de méthodes de classification, de détection et de segmentation. La détection et la caractérisation des lésions ainsi que leur délimitation est un objectif principal en endoscopie gastro-intestinale1,2,3,4,5,6,7,8,9,10,11. De même, la segmentation ciblée des calculs et sa caractérisation sont au centre des préoccupations en urétéroscopie23 et la détection des tumeurs24 a été explorée en cystoscopie. Pour les interventions laparoscopiques mini-invasives, la classification des outils chirurgicaux12, la détection et la segmentation13, la reconnaissance de phase12,14, la segmentation des repères associés15 et la superposition de volume 3D préopératoire sur la laparoscopie 2D interopératoire16 ont été un domaine d'intérêt. Un résumé illustratif des objectifs clés et des diverses tâches d'analyse d'images endoscopiques pour différentes interventions endoscopiques est présenté à la Fig. 1.

Les procédures endoscopiques largement utilisées sont présentées dans des catégories et sous-catégories uniques distinctes, tandis que le reste des procédures est fourni sous d'autres. Chacun est divisé en organe d'intérêt, type d'intervention, objectifs et méthodes assistées par ordinateur qui sont en cours de développement pour répondre à certains des objectifs présentés dans ces procédures endoscopiques.

La plupart des travaux de revue précédents sur les applications axées sur l'intelligence artificielle (IA) pour l'analyse d'images endoscopiques sont publiés dans des revues cliniques (22 contre seulement 11 publiés dans la revue technique de 2020 à 2022). Les articles de revue clinique se concentrent principalement sur les systèmes CADe et CADx pour les lésions en endoscopie gastro-intestinale25,26, tandis que les articles de revue technique se concentrent principalement sur la chirurgie laparoscopique27,28. Les examens concernant l'appareil gastro-intestinal supérieur (œsophage de Barrett, carcinome épidermoïde (SCC) et estomac25,29) et les maladies gastro-intestinales inférieures (polypes colorectaux26,30,31 et rectocolite hémorragique32,33) sont dominants par rapport aux autres organes. De plus, même si les titres de certaines revues étaient génériques26,34, elles ne présentaient que des études de surveillance endoscopique gastro-intestinale et ne couvraient pas d'autres domaines de l'analyse d'images endoscopiques. À notre connaissance, les revues publiées précédemment ne couvrent que des procédures endoscopiques spécifiques. Ils ne s'engagent pas dans un résumé complet, y compris diverses modalités, divers défis de données spécifiques à un organe, la nature de la lésion et les défis de visualisation.

Contrairement aux revues précédentes, cet article vise à décrypter le chemin vers l'intégration clinique, qui n'est possible qu'en regroupant tous les travaux liés à l'endoscopie en un seul endroit et en identifiant les réalisations passées et actuelles. En outre, la revue présentée est concise, mettant en évidence les travaux les plus importants et les plus complets avec des recherches similaires rassemblées séparément (voir les tableaux 1 et 2). La revue illustre des méthodes d'apprentissage en profondeur appliquées à différents ensembles de données endoscopiques, y compris la cystoscopie, l'urétéroscopie et l'endoscopie nasopharyngée, qui n'étaient pas couvertes dans les études précédentes. Apprendre les défis coexistants et identifier les lacunes de chaque procédure endoscopique est essentiel pour déterminer les développements requis pour des soins de santé numériques avancés et cliniquement appropriés.

Les procédures endoscopiques dépendent de l'opérateur, ce qui les rend sujettes à des erreurs humaines pouvant entraîner de faibles taux de détection d'adénomes (ADR) (par exemple, signalés lors d'une coloscopie35). D'autres limitations incluent la taille de la tumeur, l'emplacement de la lésion et les défis techniques tels que l'occlusion pendant la chirurgie laparoscopique mini-invasive36. Les procédures endoscopiques et les défis d'imagerie varient d'un organe à l'autre. Plusieurs endoscopes rigides sont utilisés pour résoudre le problème du champ de vision limité dans la chirurgie mini-invasive laparoscopique37. Cependant, la procédure est très difficile en raison d'autres organes qui se chevauchent. De même, les procédures de dépistage colorectal sont effectuées à l'aide d'endoscopes flexibles en raison du péristaltisme colique et des selles. Il existe davantage de preuves de limitations d'imagerie très similaires dans toutes ces procédures. Les bulles et parfois les résidus alimentaires sont rincés lors de la gastroscopie pour dégager la muqueuse. En outre, le nettoyage de l'intestin est nécessaire avant l'imagerie du côlon. De même, les parois de la vessie sont rincées avec une solution saline pendant la cystoscopie pour rendre la surface plus apparente. Le liquide d'irrigation est utilisé pour dégager l'encombrement de la scène pendant la procédure de fragmentation des calculs rénaux. Les occlusions de scène sont un facteur de défi majeur dans l'endoscopie nasopharyngée (Fig. 2a–f). D'un point de vue algorithmique, l'encombrement des scènes affecte presque tous les algorithmes d'analyse d'images, y compris les approches d'IA d'aujourd'hui, c'est-à-dire l'apprentissage en profondeur. C'est parce qu'il devient difficile de comprendre la muqueuse sous-jacente et difficile de caractériser les anomalies qui conduisent à des réseaux appris confus formés avec des images propres. Pour l'urétéroscopie, les débris flottants rendent difficile la segmentation et la caractérisation des calculs rénaux. De même, une diminution de l'ADR est associée à la préparation intestinale38. Une telle préparation est également essentielle et peut affecter les approches d'apprentissage en profondeur. La variabilité des apparitions de la maladie d'un organe à l'autre présente des défis complets. Cependant, certains de ces défis peuvent être courants. Par exemple, les problèmes de qualité d'imagerie, les mouvements non uniformes de la main et les mouvements d'organes sont courants dans la plupart des procédures endoscopiques. De même, la détection de lésion manquée en raison d'occlusions peut être un facteur limitant commun à toutes les procédures endoscopiques. L'examen de ces méthodes dans différentes acquisitions endoscopiques vise à comprendre les approches d'apprentissage en profondeur les plus courantes et les opportunités manquées uniques.

une procédure de gastroscopie au cours de laquelle un endoscope flexible est inséré pour visualiser la muqueuse dans les parties de l'œsophage et de l'estomac du duodénum. On peut observer que la scène varie beaucoup en fonction de l'emplacement de l'oscilloscope. De même, sur l'image en haut à gauche, on peut observer des bulles entourant la muqueuse. b Les procédures de coloscopie couvrent le côlon et le rectum, au cours desquelles des endoscopes flexibles sont utilisés pour naviguer dans cet organe tordu complexe. Le nettoyage intestinal est une préparation essentielle car il peut obstruer les lésions. Dans la plupart des images, la présence de selles est une marque claire d'anomalie occluse. c Pendant la laparoscopie, des endoscopes généralement rigides sont insérés à travers de petits trous d'incision. Des images illustrant la graisse entourant le foie, une vue claire du foie, la présence d'outils pendant la chirurgie et l'occlusion complète du foie due à la graisse sont affichées. d Les endoscopes rigides largement utilisés sont utilisés pour examiner les parois de la vessie qui sont insérées à travers l'urètre. La modalité d'image en lumière blanche conventionnelle (les trois premières) et la modalité d'image en fluorescence (bleue) sont présentées125. On peut observer que les deux images du haut sont floues montrant peu ou pas de structures de vaisseaux. e Élimination des calculs rénaux par urétéroscopie et lithotripsie au laser. La différence de texture et de débris environnants (en haut) et de sang (en bas) pour les images in vivo71. f Un endoscope flexible pénètre par les narines et peut aller du nez jusqu'à la région de la gorge et est donc collectivement appelé endoscopie nasopharyngée. Les images (à gauche) montrent une petite ouverture et un champ de vision, ainsi que des outils chirurgicaux pour certains cas126. Les sources des images d'endoscopie pertinentes : les images de gastroscopie et de coloscopie dans (a et b sont acquises auprès des hôpitaux universitaires d'Oxford sous la réf. 16/YH/0247 et font partie d'ensembles de données de défi d'endoscopie rendus publics (EDD2020127 sous CC-by-NC 4.0 et PolypGen128 sous CC-by, le Dr S. Ali est le créateur des deux ensembles de données). (Le Dr S. Ali est le créateur de cet ensemble de données), tandis que les données de cystoscopie et d'urétéroscopie sont respectivement tirées de la thèse de doctorat du Dr S. Ali130 et d'un article récemment publié dont il est co-auteur 71. De même, les images nasopharyngées correspondent à l'ensemble de données UW-Sinus-Surgery-C/L accessible au public 126 avec une licence inconnue.

Les approches d'apprentissage automatique sont axées sur les données et visent principalement à minimiser (erreur de dissemblance) ou à maximiser (similarité) une fonction de perte L (Fig. 3a). Un optimiseur, généralement un différenciateur, est utilisé pour trouver des valeurs localement optimales pour la fonction de perte calculée de manière itérative. La perte se situe généralement entre les étiquettes prédites y et l'étiquette de vérité terrain ytrue (Fig. 3a). Les réseaux de neurones sont constitués de filtres ou de neurones (alias noyaux ou poids) qui peuvent être appris, contrairement aux filtres de traitement d'image classiques qui sont prédéfinis. Ces poids obtenus à partir de noyaux de tailles différentes (par exemple, un noyau 3 × 3, K3 × 3 = {w1,..., w9}) sont ensuite passés à travers une fonction d'activation non linéaire a(.) qui leur permet d'apprendre des fonctionnalités plus complexes qui autrement ne seraient pas identifiées. Les poids du réseau neuronal sont ajustés en fonction des sorties de l'optimiseur à chaque itération. Les échantillons d'entrée sont principalement traités par lots, pour lesquels une itération complète sur tous les échantillons est appelée une époque pendant la formation. Les poids du modèle appris sont ensuite appliqués à l'ensemble de données de test (c'est-à-dire la phase d'inférence ou de test). La plupart des méthodes optimisent les fonctions de perte et utilisent des ensembles de validation pour ajuster les hyper-paramètres du réseau θ. Cependant, une telle optimisation peut être effectuée pour divers paramètres de tâches tels que la classification, la détection et la localisation des lésions, la segmentation sémantique (classification par pixel), la segmentation des instances (régression par boîte régionale et classification par pixel), les tâches d'estimation de profondeur et autres. Un schéma d'ensemble avec des architectures d'apprentissage en profondeur connues pour la classification des néoplasies dans l'œsophage de Barrett ; détection, localisation et segmentation des polypes en coloscopie ; localisation et segmentation des instruments chirurgicaux pendant la chirurgie laparoscopique ; Estimation de la profondeur 3D et reconstruction de l'œsophage ; et l'inclusion de contexte vidéo temporel dans les réseaux de neurones convolutifs (CNN) est démontrée (Fig. 3b).

a Une représentation conceptuelle d'un système d'apprentissage en profondeur avec un optimiseur pour minimiser une fonction de perte. L'invention concerne un bloc de réseau neuronal convolutionnel simplifié (CNN) comprenant un noyau 3 × 3 et un poids calculé pour chaque pixel avec des poids de noyau et un biais. Il démontre également une fonction d'activation non linéaire appliquée pour capturer des fonctionnalités plus complexes. La phase d'entraînement et de test consiste en des ensembles de données fractionnés où l'ensemble de validation est utilisé pour garantir que les paramètres appris se généralisent et ne surajustent pas l'ensemble de données d'entraînement. Un graphique de sur-ajustement du modèle est montré qui est régulé à l'aide d'un ensemble de validation. b Certaines architectures d'apprentissage en profondeur largement utilisées sont présentées pour diverses tâches dans l'analyse d'images endoscopiques. Pour le réseau de classification, seul un réseau de codeurs est utilisé, généralement suivi d'un classificateur tel que softmax3. Pour la détection, les caractéristiques sont extraites à l'aide d'un réseau d'encodeurs, qui est ensuite tiré à l'aide d'un réseau de proposition de région pour prédire à la fois la classe et les représentations de la boîte englobante128. Pour la segmentation sémantique, les fonctionnalités de l'encodeur sont mises à l'échelle pour la classification de la taille de l'image par pixel. De même, pour la tâche de segmentation d'instance, les propositions de région pour les boîtes englobantes et les prédictions par pixel pour les masques sont utilisées131. L'idée d'un réseau d'estimation de profondeur est de comprendre à quelle distance la caméra se trouve d'une région anatomique fournissant des distances dans le système de coordonnées du monde réel22. Enfin, les réseaux de neurones récurrents (alias RNN) peuvent intégrer des informations vidéo temporelles pour affiner les prédictions actuelles d'un réseau CNN64. Ici, les entrées de trame séquentielles v1,.., vn sont transmises au réseau CNN produisant des vecteurs de caractéristiques visuelles p1,..., pn, qui sont ensuite transmises au réseau RNN. La sortie des RNN représente la relation temporelle fournissant des prédictions contextuelles pour chaque trame de sorte que la sortie de la nième trame qn dépend à la fois des trames actuelles et précédentes, c'est-à-dire des vecteurs de caractéristiques q(Vn) et de tous les autres vecteurs de caractéristiques précédents q(Vu), u < n. Les réseaux CNN et RNN sont optimisés conjointement à l'aide d'une stratégie de renforcement. Les sources d'images d'endoscopie pertinentes : les images de gastroscopie et de coloscopie en (a et b) sont acquises auprès des hôpitaux universitaires d'Oxford sous la réf. 16/YH/0247 et fait partie des ensembles de données de défi d'endoscopie rendus publics (EDD2020127 sous CC-by-NC 4.0 et PolypGen128 sous CC-by, le Dr S. Ali est le créateur des deux ensembles de données). Les données sur les procédures chirurgicales sont extraites de ROBUST-MIS113.

Cette revue identifie et discute des tendances d'application des méthodes d'apprentissage automatique (en particulier l'apprentissage en profondeur) dans chaque procédure spécifique à un organe. Dans un second temps, les écarts actuels menant aux orientations futures sont décryptés. La recherche sur le Web a révélé que la plupart des méthodes optimisent les pondérations à l'aide de tâches d'apprentissage supervisées composées de CNN largement utilisés. Ces tâches comprenaient la classification, la détection, la segmentation et l'estimation de la profondeur. La littérature a été sélectionnée à l'aide des critères de recherche et d'inclusion fournis dans la section suivante. L'objectif principal est d'examiner les études récentes et de comprendre leurs facteurs limitants dans chaque procédure d'imagerie et méthode mise en œuvre. Notre objectif est d'apprendre des méthodes développées dans des techniques endoscopiques similaires et d'identifier des moyens qui peuvent être bénéfiques dans d'autres domaines. Dans les développements futurs, les lacunes et les défis existants dans l'imagerie endoscopique peuvent nous permettre d'établir un plan stratégique et de construire des protocoles pour des méthodes d'imagerie endoscopique fiables et acceptables.

Les bases de données Medline, Embase, Springer, Web of Science et IEEE Xplore ont été utilisées pour effectuer des recherches dans la littérature connexe. Pour se concentrer sur des noms de procédures endoscopiques spécifiques à un organe (par exemple, endoscopie, coloscopie, laparoscopie hépatique, urétéroscopie) ont été utilisés. De plus, des études informatiques - apprentissage automatique, IA et apprentissage en profondeur - ont été ajoutées aux noms de procédures endoscopiques pour condenser la recherche. La plupart des études après 2018 jusqu'au début juin 2022 sont sélectionnées pour cette revue. Rien que pour «l'apprentissage en profondeur de l'endoscopie» avec des articles de filtres actifs, en anglais, 251 articles sur Medline et 1740 articles sur Embase (car «Embase» incluait également des articles de synthèse) ont été trouvés. Tous les doublons ont également été supprimés. Notre recherche avancée à l'aide de mots clés tels que l'IA en endoscopie, l'apprentissage en profondeur pour l'endoscopie et la classification des néoplasies a révélé respectivement 33, 13 et 36 articles. Ainsi, les articles sélectionnés sont issus d'une 'recherche de base' plutôt que d'une recherche avancée. La recherche de base a révélé un plus grand nombre d'articles. Cependant, pour les réduire, nous avons en outre appliqué des filtres qui comprenaient un endoscope, des essais, des logiciels, la photoacoustique, la tomodensitométrie, l'IRM, le matériel, la simulation, les études homme contre machine, la micro-échographie, l'imagerie sur lame entière, la radiologie, etc.

Une recherche sur le Web de la science pour les interventions chirurgicales laparoscopiques comprenait des mots clés tels que la segmentation hépatique laparoscopique et l'apprentissage en profondeur pour la laparoscopie. Pour cela, 56 articles, dont 36 articles, dont 12 articles de synthèse ont été trouvés. La tendance à la compréhension approfondie en laparoscopie est passée de 6 articles en 2018 à 21 articles en 2021. Outre des cas de maladies spécifiques, des rapports portant sur la qualité, la classification/reconnaissance de l'anatomie, d'autres modalités (par exemple, Raman et (hyper)spectrale) et la profondeur ou la reconstruction 3D ont également été identifiés. Pour répondre à la tendance croissante dans les communautés cliniques et techniques en endoscopie gastro-intestinale, la revue présentée comprend des contributions supplémentaires spécifiques à la méthode. Huit travaux de conférence évalués par des pairs ont également été ajoutés pour renforcer les contributions techniques dans ce domaine.

Le travail présenté a ci-dessous des critères d'inclusion supplémentaires pour rendre cette revue plus ciblée, moins biaisée et reflétant les méthodes d'intégration clinique :

Les articles de recherche doivent avoir une grande cohorte de patients (par rapport aux travaux précédemment publiés) ou au moins par rapport à quelques ensembles de données accessibles au public s'il s'agit d'un travail présenté techniquement.

Les articles de recherche doivent avoir une formation, une validation et des ensembles de tests spécifiques rapportés dans l'article pour réduire les biais dans les études.

Si les documents de recherche incluaient une nouveauté mais n'étaient pas évalués de manière exhaustive sur les données des patients, ces études étaient soit rejetées, soit incluses dans les contributions à la méthode.

Chaque méthode rigoureusement évaluée a été incluse dans le tableau principal. Ici, des modalités uniques, des maladies cibles uniques et des tâches individuelles (par exemple, la classification, la segmentation, la détection et la localisation) ont été choisies. Dans le même temps, des études similaires sont fournies dans une colonne distincte pour les lecteurs intéressés.

Une section pour l'IA dans d'autres procédures endoscopiques qui ne sont pas largement étudiées a été incluse qui couvre certains travaux sur le nasopharynx, la bronchoscopie et la thyroïdectomie.

Pour l'estimation de la carte de profondeur et la reconstruction 3D, les travaux sont inclus dans une section distincte sous des applications supplémentaires car ils ne sont pas évalués sur des ensembles de données de patients plus étendus. Dans la même section, les études liées à l'assurance de la qualité en endoscopie et à la classification des repères anatomiques sont également incluses pour compléter cette enquête.

L'oesophago-gastro-duodénoscopie (OGD) est utilisée pour effectuer une surveillance gastro-intestinale supérieure (y compris l'œsophage, l'estomac et le duodénum). En revanche, la coloscopie et la sigmoïdoscopie examinent les organes gastro-intestinaux inférieurs, y compris le côlon et le rectum. Avec les développements récents de l'apprentissage en profondeur, plusieurs croissances ont été réalisées dans la construction de systèmes de détection et de diagnostic assistés par ordinateur. Par rapport aux autres ministères, davantage de recherches sont axées sur la coloscopie. Certaines revues récentes ont mis en évidence quelques travaux de groupes sélectionnés sur les GI supérieurs et inférieurs25,26,30 ; cependant, la distinction entre l'ensemble de données train-test ou le type de méthode basée sur l'apprentissage utilisée dans ces études ou les deux n'a pas été présentée. Des systèmes CADe et CADx plus génériques avec des termes d'apprentissage en profondeur (DL) ont été utilisés dans la présentation de la plupart des articles de synthèse trouvés. Les méthodes DL pour l'IG inférieur sont présentées dans31 ; cependant, ceux-ci se concentrent uniquement sur les polypes colorectaux. Dans cette revue, la répartition des données de formation et de test et le type d'algorithme développé pour une tâche spécifique sont mentionnés de manière claire et concise pour donner aux lecteurs une idée à la fois des besoins cliniques et des développements de méthodes techniques.

Pour les OGD, avec l'augmentation inquiétante du nombre de patients atteints de l'œsophage de Barrett, une lésion précurseur de l'œsophage a été au centre des préoccupations de nombreux développements actuels basés sur l'apprentissage automatique. une architecture hybride ResNet-UNet a été utilisée pour classer l'œsophage de Barrett néoplasique et non dysplasique (NDBE)1 qui a fourni une précision de plus de 88 % sur deux ensembles de données de test. de même, pour le SCC dans l'œsophage, une architecture d'encodeur-décodeur utilisant le réseau VGG16 pour la segmentation par pixel a été utilisée39 qui a rapporté une sensibilité de 98,04 % à une spécificité de 95,03 %. La gastrite atrophique (AG) et la métaplasie intestinale gastrique (MI) sont deux étapes principales de la progression de l'adénocarcinome gastrique40, principalement causées par une infection à Helicobacter pylori ou par une gastrite auto-immune. DenseNet121 a été formé avec 5470 images3 pour caractériser AG, ce qui a donné une précision de 94,2 % sur l'ensemble de données de test. de même, UNet++ avec ResNet50 a été utilisé pour classer AG, IM et hémorragie41. Pour cela, 8141 images (4587 patients) ont été utilisées pour la formation, tandis que 258 patients externes et 80 vidéos ont été utilisés pour la phase de test.

Dans une coloscopie, la plupart de ces méthodes ciblent l'identification ou la caractérisation de précurseurs connus du cancer, les « polypes ». En raison de leur succès, la plupart des méthodes implémentent CNN largement utilisé. Par exemple, 3D CNN pour la classification binaire au niveau de la trame des polypes42 avec une précision de 76 %. En revanche, des méthodes de détection telles que YOLO43 et SDD6 ont été utilisées pour la localisation et la détection des polypes avec une précision beaucoup plus élevée de 96 % pour YOLO et une sensibilité supérieure à 90 % pour l'approche SSD. AutoML a été utilisé par Jin et al.9 qui nous permet de rechercher des réseaux de neurones efficaces en utilisant des techniques d'apprentissage récurrent et par renforcement. Le réseau CNN optimisé se composait de cellules normales et de réduction, qui utilisaient plusieurs opérations telles que des convolutions séparables et des couches de mise en commun moyenne et maximale. Le réseau recherché a obtenu une précision diagnostique globale pour les polypes difficiles à localiser était de 86,7 %. Les résultats rapportés sur l'amélioration des performances des endoscopistes novices de 73,8 % à 85,6 % ont également été rapportés. Inception7 a été utilisé pour classer les polypes et les caractériser entre hyperplasique et adénomateux avec une sensibilité de 98 % à la spécificité de 83 %.

Il y a eu, cependant, des tentatives de gradation de l'inflammation de l'intestin, appelée « maladie inflammatoire de l'intestin », axée à la fois sur la colite ulcéreuse (CU)11,44,45. Maladie de Crohn (MC)46,47. L'IBD continue d'avoir une variabilité intra- et inter-observateur importante dans le classement de la gravité de la maladie au cours de l'endoscopie. Il existe plusieurs systèmes cliniquement acceptés pour noter ces sévérités qui ont, dans une certaine mesure, amélioré la reproductibilité et la fiabilité des scores endoscopiques. Cependant, le problème est encore flou car ces systèmes de notation incluent des définitions larges. Un large éventail de méthodes d'apprentissage en profondeur a été développé pour résoudre ces problèmes et minimiser la variabilité des opérateurs dans le diagnostic. Pour la CU, le Mayo Clinical Endoscopic Scoring (MCES) est le système le plus largement utilisé pour stratifier les patients consistant en un système de notation de 0 à 3 de normal (0) à sévère (3). Un modèle initial V3 a été utilisé pour classer entre (0 ou 1) et (2 ou 3)11 avec une précision de 97 % et une VPP de 86 %. De même, un modèle de contrôle de qualité pour distinguer les trames lisibles et illisibles et un réseau d'apprentissage en profondeur basé sur CNN pour la classification UC ont été développés sur des ensembles de données multicentriques rapportant une aire sous la courbe de 0,84, 0,85 et 0,85, respectivement pour MCES ≥1, MCES ≥2, MCES ≥3 (classification binaire). La CD affecte principalement l'intestin grêle, où les endoscopes conventionnels sont difficiles à atteindre. Il existe de nombreux développements dans la notation des CD utilisant l'apprentissage en profondeur, mais pour l'imagerie par endoscopie par capsule vidéo (VCE). L'ulcération et la muqueuse normale ont été classées à l'aide de l'entraînement du modèle Xception CNN en tant que validation croisée 5 fois montrant une précision supérieure à 95 % pour chaque pli46. Un modèle d'apprentissage en profondeur utilisant DenseNet48 à 169 couches a été formé sur un grand ensemble de données comprenant 28 071 images avec CRC (3 176 patients) et 436 034 images non CRC (9 003 patients). Le test a été effectué sur trois ensembles de tests uniques qui comprenaient le même centre et deux centres différents, démontrant la généralisabilité du modèle formé avec une sensibilité d'environ 75 % sur deux ensembles de tests invisibles.

Le développement de nouvelles méthodes de coloscopie est bien documenté31,49. Cela peut être dû à la disponibilité d'ensembles de données publics pour la détection et la segmentation des polypes. Ces méthodes sont pour la plupart publiées sous forme d'actes de conférence et ont été incluses ici par souci d'exhaustivité. La majorité des méthodes actuelles de détection et de localisation peuvent être divisées en détecteurs à plusieurs étages50, détecteurs à un étage51 et détecteurs sans ancre52. Dans ce contexte, pour répondre au besoin de détection de polypes en temps réel, Wan et al.51 ont utilisé le réseau YOLOv5 avec le mécanisme d'auto-attention sur la couche supérieure de chaque étape du réseau fédérateur d'extraction de caractéristiques pour renforcer les caractéristiques informatives montrant une augmentation d'environ 2 % du score Dice et un temps d'inférence amélioré sur deux ensembles de données. Alors que la plupart des détecteurs utilisent des boîtes d'ancrage prédéfinies pour les tâches de localisation, le concept de détecteur sans ancre53 a été utilisé pour résoudre ce problème, montrant un score Dice compétitif et un temps d'inférence amélioré (près de 52,6 images par seconde) par rapport à plusieurs méthodes SOTA sur quatre ensembles de données publics52. Récemment, un réseau CNN hybride 2D-3D a été conçu pour exploiter la corrélation spatiale et temporelle des prédictions avec un gain marginal sur l'ensemble de données de polypes vidéo tout en préservant la détection en temps réel54. La détection d'une anomalie dans l'œsophage de Barrett à l'aide du CNN 3D et de la mémoire convolutive à long court terme (ConvLSTM) qui permet la capture d'informations spatio-temporelles dans des vidéos a également été publiée en tant que contribution technique55.

Pour la segmentation, les développements actuels s'appuient largement sur les architectures codeur-décodeur56,57,58. Tomar et al.57 ont proposé de combiner l'incorporation d'étiquettes de texte comme mécanisme d'attention pour une segmentation efficace des polypes et pour améliorer la généralisabilité. Au cours de la formation, la tâche de classification auxiliaire pour l'apprentissage des caractéristiques liées à la taille et au nombre de polypes a été formée et intégrée au réseau de segmentation tout en montrant une amélioration allant jusqu'à 2 % par rapport aux méthodes SOTA sur quatre ensembles de données publics. Des réseaux basés sur des transformateurs ont également été introduits récemment, à savoir TransFuse59 et ColonFormer60. TransFuse a combiné des transformateurs avec des CNN dans un style parallèle permettant de capturer des détails spatiaux globaux et de bas niveau et a démontré un gain de performances de près de 1 à 2 % sur cinq ensembles de données publics par rapport aux méthodes DL SOTA. Un travail récent montrant une amélioration par rapport à TransFuse a été présenté sous le nom de ColonFormer, qui utilisait un encodeur avec une colonne vertébrale de transformateur de mélange tandis que le décodeur consistait en un module de mise en commun pyramidale qui permettait de combiner des cartes de caractéristiques à l'échelle de la couche de l'encodeur pour une carte globale. Les valeurs de seuil ad hoc largement utilisées pour la prédiction de la carte de segmentation finale ont été abordées en proposant un ThresholdNet qui utilisait un mélange multiple guidé par la confiance comme augmentation de données permettant un apprentissage de seuil optimisé et a montré de grandes améliorations (près de 5%) par rapport à diverses méthodes SOTA.

Des articles de synthèse sur les interventions chirurgicales et des méta-analyses ont été réalisés par 8 des 33 articles de synthèse. La plupart de ces travaux ont été publiés dans des revues techniques. Les algorithmes de détection, de segmentation et de suivi de la vision des instruments chirurgicaux mini-invasifs utilisés pour l'analyse des images transmises par les robots chirurgicaux ont été présentés dans la réf. 27, tandis que les méthodes DL axées sur l'analyse vidéo laparoscopique ont été menées en profondeur dans la réf. 28. L'étude28 a utilisé 32 approches d'apprentissage en profondeur. L'enquête a mis en évidence que près de la moitié (45 %) des méthodes développées visaient la reconnaissance et la détection d'instruments, avec 20 % sur la reconnaissance de phase et près de 15 % sur la reconnaissance d'anatomie et d'action. Cependant, les articles minoritaires portaient sur la reconnaissance de la gaze (3 %) et la prédiction du temps de chirurgie (5 %), tandis que les procédures les plus largement utilisées étaient la cholécystectomie (chirurgie d'ablation de la vésicule biliaire, 51 %) et la chirurgie gynécologique (système reproducteur de la femme, 26 %). Dans cette revue, des articles supplémentaires qui ont été récemment publiés sur la détection des anomalies, l'enregistrement et la laparoscopie augmentée sont ajoutés.

Une méthode de segmentation d'instance appelée « masque R-CNN » a été utilisée pour segmenter l'utérus, les ovaires et les outils chirurgicaux sur les images endoscopiques d'une procédure de gynécologie61. L'ensemble de données « SurgAI » comprenait 461 images. Une autre étude s'est concentrée sur la détection d'outils chirurgicaux dans les vidéos laparoscopiques proposant une classification multi-étiquettes nommée LapTool-Net62. LapTool-Net a exploité les corrélations entre différents outils et tâches à l'aide d'un réseau neuronal convolutionnel récurrent (RNN). Ils ont utilisé des ensembles de données de cholécystectomie laparoscopique accessibles au public, notamment M2CAI16 et Cholec80. Ils ont utilisé une technique de sur-échantillonnage pour les classes sous-représentées et un sous-échantillonnage des classes avec des échantillons majoritaires. Un Inception V1 a été utilisé pour l'extraction de caractéristiques avec Gated Recurrent Unit (GRU) en tant que blocs RNN, suivi de deux classificateurs entièrement connectés. Une technique d'auto-encodeur a été utilisée comme réseau apprenant pour mesurer la distribution « normale » des données et détecter les événements anormaux s'écartant de cette distribution en tant qu'erreur de reconstruction63. La formation a été menée à l'aide de l'ensemble de données Cholec80 et de données vidéo fantômes montrant un rappel et une précision égaux à 78,4 %, 91,5 %, respectivement, sur Cholec80 et 95,6 %, 88,1 % sur l'ensemble de données fantôme. Une autre étude similaire sur la surveillance automatique de l'utilisation des outils pendant la chirurgie a également exploité le contexte temporel ainsi que les caractéristiques visuelles (Réseau récurrent, Fig. 3b)64. Une étude récente a utilisé CASENet pour prédire les contours de la silhouette et de la crête du foie dans un ensemble de données de 5 patients composé de 133 images65. Même si l'article s'est concentré sur l'enregistrement basé sur les contours 3D à 2D, la méthode a été construite sur la technique de vision par ordinateur classique utilisant la méthode Perspective-n-Point avec RANSAC pour l'élimination des valeurs aberrantes.

Alors que très peu de travaux de recherche appliquent directement l'apprentissage profond aux acquisitions endoscopiques, ce domaine recèle un énorme potentiel dans le développement de méthodes automatisées robustes pour la détection des lésions66,67 et la caractérisation68 en cystoscopie. CystoNet67 a été développé à l'aide de cinq réseaux entièrement convolutifs pour la prédiction pixel à pixel et d'une proposition de région distincte et d'une couche de mise en commun du retour sur investissement pour la prédiction de la boîte englobante. La formation a été menée sur 95 patients contenant 2335 cadres bénins et 417 cadres histologiquement vérifiés représentant des tumeurs cancéreuses. De plus, 54 vidéos de patients avec 31 muqueuses normales et les 23 vidéos de patients restantes avec des tumeurs ont été utilisées pour valider le modèle formé. Les données de formation et de validation consistaient en une cystoscopie en lumière blanche et en lumière bleue (BL). L'étude a montré que l'algorithme CystoNet pouvait identifier le cancer de la vessie avec une sensibilité par image de 90,9 % et une spécificité de 98,6 %, c'est-à-dire que l'algorithme a détecté 39 cancers de la vessie sur 41. Une stratégie d'apprentissage par transfert a été utilisée pour laquelle un ensemble de différents réseaux CNN profonds pré-formés (Inception V3, réseau MobileNetV2, ResNet50 et VGG16) a été affiné et ajouté avec des couches supplémentaires au-dessus de chaque réseau68. L'étude visait les tâches de classification pour les images de cystoscopie BL, y compris les tumeurs bénignes par rapport aux tumeurs malignes, le classement des tumeurs (bénignes, de bas grade et de haut grade) et le caractère invasif de la tumeur (bénigne, CIS, Ta, T1 et T2). Les résultats ont démontré une sensibilité de 95,77 % et une spécificité de 87,84 % pour l'identification des lésions malignes, tandis que la sensibilité moyenne et la spécificité moyenne de l'invasivité tumorale étaient de 88 % et 96,56 %, respectivement.

De même, pour l'urétéroscopie, la caractérisation des calculs rénaux69,70 et sa segmentation pour la lithotripsie laser (fragmentation des calculs rénaux)71 ont été développées. Pour la caractérisation de la pierre69, cinq compositions différentes ont été obtenues auprès d'un laboratoire de pierre, y compris l'oxalate de calcium monohydraté (COM), l'acide urique (UA), le phosphate d'ammonium et de magnésium hexahydraté (MAPH/struvite), l'hydrogénophosphate de calcium dihydraté (CHPD/brushite) et les pierres de cystine. Soixante-trois calculs rénaux humains ont été utilisés pour cette étude, avec au moins deux images pour chaque calcul. La méthode de validation croisée Leave-one-out a été utilisée pour rapporter les résultats de la classification à l'aide de ResNet101. La spécificité et la précision pour chaque type de pierre étaient (en pourcentage) : UA [97,83, 94,12], COM [97,62, 95], struvite [91,84, 71,43], cystéine [98,31, 75] et brushite [96,43, 75]. Gupta et al.23,71 ont développé une approche de segmentation basée sur le mouvement en utilisant UNet pour les ensembles de données in vivo et in vitro. En plus du calcul rénal, les auteurs ont également segmenté l'instrument laser, indiquant qu'il est important de comprendre la taille du calcul et la distance laser de fonctionnement pour la lithotripsie au laser. L'HybResUNet induit par le mouvement proposé a amélioré les résultats de segmentation avec un coefficient de similarité de dés rapporté de 83,47 % pour la pierre et de 86,58 % sur des échantillons de test in vivo pour la segmentation laser. Les résultats ont surpassé les réseaux de référence (par exemple, UNet72) pour les paramètres in vivo et in vitro.

Certains autres types d'applications d'apprentissage en profondeur basées sur des images endoscopiques comprennent (a) la détection des tumeurs malignes du nasopharynx73 et la segmentation des granulomes et des ulcérations sur des images acquises par laryngoscopie74, (b) un algorithme d'apprentissage en profondeur de bout en bout pour segmenter et mesurer les nerfs laryngés pendant la thyroïdectomie (une intervention chirurgicale)75, et (c) l'interprétation anatomique basée sur l'apprentissage en profondeur des images de bronchoscopie vidéo76. Une revue récente et un article de méta-analyse sur l'endoscopie laryngée77 ont suggéré que les modèles d'IA présentaient une précision globale élevée entre 0,806 et 0,997. Cependant, cette revue n'a pas montré de détails sur les modèles d'IA et a utilisé des tailles d'échantillons.

Des échantillons de patients histologiquement confirmés composés de 27 536 images ont été utilisés pour cette étude, dont 19,7 % de patients en bonne santé, tandis que les autres souffraient de diverses maladies pathologiques, notamment des cancers bénins (13,2 %) et du nasopharynx (66 %). Leur précision globale a été signalée comme étant de 88,7 % en utilisant entièrement les CNN78. Ici, une approche de segmentation sémantique a été adoptée, qui a donné un coefficient de similarité de dés de 0,78 ± 0,24 et 0,75 ± 0,26 sur des ensembles de tests rétrospectifs et prospectifs, respectivement. De même, pour la laryngoscopie74, différentes lésions ont été annotées sur 127 images de 25 patients pour former une architecture UNet montrant une sensibilité par pixel de 82 % et pour les granulomes et de 62,8 % pour les ulcérations. La segmentation du nerf laryngé récurrent, responsable de la parole humaine, pendant la chirurgie (thyroïdectomie) a été réalisée en utilisant l'approche largement connue du masque R-CNN (segmentation d'instance)75. L'ensemble de données comprenait divers scénarios difficiles tels que la lumière faible, le gros plan, la lumière lointaine et la lumière vive et leurs combinaisons. Les résultats de segmentation variaient de 0,343 à 0,707 à un intervalle de confiance de 95 % sur 40 sujets. Alors que les anesthésistes utilisent couramment la bronchoscopie vidéo pendant l'intubation, la profondeur et l'orientation peuvent être difficiles à interpréter. Un système d'aide à la décision de bronchoscopie vidéo montrant les emplacements anatomiques à différentes rotations a été développé à l'aide d'un modèle EfficientNetB1 avec une précision de classification de 0,86 % (branche principale gauche, branche principale droite et classes de carène), pour lequel 6806 images ont été utilisées pour l'entraînement et 511 pour le test76.

En plus de se concentrer sur la détection des maladies cibles et leur caractérisation, la littérature récente montre également plusieurs développements de méthodes liés à l'aide au contrôle de la qualité du dépistage endoscopique en GI, à la détection du site anatomique muqueux et à l'estimation ou la reconstruction de la profondeur 3D pour la visualisation de la scène muqueuse. Notre recherche a montré au moins dix articles sur la qualité de l'acquisition endoscopique, quatre sur la classification ou la détection de l'anatomie et neuf sur l'estimation de la carte de profondeur et la reconstruction tridimensionnelle de la muqueuse.

La qualité endoscopique est un goulot d'étranglement important et peut aider à réduire les taux de détection manquée18,19. Les travaux portent à la fois sur les procédures endoscopiques du GI supérieur21,79 et du GI inférieur80 en termes d'évaluation de la qualité par apprentissage en profondeur. Alors que la surveillance des angles morts en classant les sites était un indicateur de contrôle de la qualité21, des artefacts tels que le flou, les bulles, la spécularité, la saturation et le contraste dans les cadres endoscopiques étaient un indicateur de la qualité dans l'autre étude79. Des réseaux DCNN prêts à l'emploi pour le contrôle de la qualité ont été utilisés dans des articles cliniques21. Cependant, pour le cadre méthodologique79, la proposition consistait à combiner différents poids des boîtes englobantes trouvées à partir d'un détecteur YOLOv3 avec une méthode de mise en commun pyramidale spatiale pour un score de qualité agrégé final et d'autres techniques de restauration ont été proposées pour les cadres partiellement défectueux à des fins visuelles. Pour noter la préparation intestinale80, un réseau résiduel profond d'attention partagée a été utilisé pour l'entraînement. Les résultats des tests sur 927 images de l'ensemble de données externe ont montré une précision globale de 96,7 %. De même, une étude axée sur la compréhension du pourcentage de visualisation de la muqueuse dans l'intestin grêle pendant la VCE a utilisé un réseau neuronal à convolution simple et entièrement connecté81. De même, la plupart des travaux de classification des points de repère n'ont appliqué que des réseaux CNN prêts à l'emploi montrant une bonne précision dans la classification des sites de repère (par exemple, des valeurs de rappel supérieures à 90 % pour 9 des 11 classes de sites82), largement basées sur les procédures OGD qui incluent l'œsophage, l'estomac et le duodénum82,83.

Des réseaux d'estimation de profondeur pour les cas monoculaires (c'est-à-dire une acquisition par caméra unique largement utilisée par la plupart des systèmes d'endoscopie) ont été développés22,84,85,86,87. Alors qu'une technique d'apprentissage auto-supervisée pour l'estimation de la profondeur a été explorée à l'aide d'un réseau siamois à partir d'un outil SfM antérieur basé sur des estimations de profondeur clairsemées à partir de séquences vidéo84, des travaux récents de Shao et al.87 ont exploré l'hypothèse de constance de la luminosité pour faire face à la variabilité de l'éclairage de la scène endoscopique mais encore une fois en utilisant le cadre d'auto-supervision. Le premier a utilisé des vidéos d'endoscopie sinusale démontrant une différence relative absolue de 0,20 mm tandis que le second a été évalué sur quatre ensembles de données publics différents, y compris un tractus gastro-intestinal (ex vivo porcin)86 où l'erreur de trajectoire absolue était de 0,13 par rapport à 0,20 précédemment publié sur Colon IV86. Un autre travail22 a utilisé un réseau d'estimation de profondeur entièrement supervisé pour quantifier la longueur de l'œsophage de Barrett pour la stratification des risques. Ces mesures ont montré une bonne corrélation avec leur fantôme imprimé en 3D à la fois sur la longueur et sur la surface, avec une erreur relative inférieure à 5% dans tous les cas (différence relative maximale de 0,25 mm sur la longueur et 0,43 mm2 sur la surface).

En général, la plupart des travaux actuels en analyse d'images endoscopiques sont adoptés à partir de la vision par ordinateur publiée antérieurement et d'autres architectures d'imagerie médicale. Certains de ces réseaux populaires incluent les architectures Faster-R-CNN88, YOLO89, UNet72, DeepLab90 mises en œuvre avec des réseaux fédérateurs bien connus, notamment VGG1991, ResNet92 et EfficientNet93. Cependant, les méthodes rapportées dans les articles, de la classification à la détection et à la segmentation, ont principalement contribué à leur applicabilité en résolvant les problèmes cliniques nécessaires et en évaluant de manière approfondie les ensembles de données des patients. Une perspective technique fournie dans la réf. 29 ont suggéré d'utiliser des transformateurs visuels, des modèles plus hybrides, l'inclusion de l'explicabilité dans les modèles d'IA, l'utilisation d'approches non supervisées et semi-supervisées et l'utilisation de modèles génératifs. La reproductibilité et le test des méthodes sur des conditions cliniques réelles ont été les principales questions soulevées dans une autre revue technique sur les méthodes DL pour les polypes colorectaux31.

Ainsi, malgré l'efficacité rapportée de ces méthodes sur des données conservées rétrospectivement1,2, les études de données prospectives ne sont pas réalisées ou comportent une ou quelques analyses centrées94,95, ce qui rend l'applicabilité clinique discutable. L'avancement de l'IA a eu un impact positif sur les opportunités d'application pour l'aide aux procédures endoscopiques et l'analyse des données endoscopiques. D'une part, de nombreuses études publiées dans des revues cliniques1,2,39 ont montré leurs possibilités d'application. Cependant, ils ne comparent pas rigoureusement les autres architectures. De nouveaux développements de méthodes DL orientés vers la formation sur divers ensembles de données endoscopiques, l'introduction de l'explicabilité des résultats et des travaux plus techniques sont nécessaires pour accélérer ce domaine. En revanche, celles publiées dans des revues techniques n'utilisent pas de données multicentriques complètes12,14,23. En effet, la plupart de ces travaux se concentrent principalement sur l'utilisation d'ensembles de données collectés rétrospectivement pour la validation algorithmique. On peut affirmer que les paramètres cliniques du monde réel peuvent être très divers par rapport aux ensembles de données organisés. De même, la rareté des données ou le manque de données annotées et la variabilité importante des cas de maladie peuvent entraîner des problèmes de déséquilibre des données. Certains des travaux récents publiés dans des revues techniques ont tenté de répondre à ces préoccupations importantes dans le domaine de l'analyse d'images endoscopiques en incluant des approches d'apprentissage à un ou plusieurs coups96, des approches de méta-apprentissage97 et des techniques semi-supervisées98. Cependant, il n'est pas encore possible de s'attaquer à de tels problèmes dans des cas cliniques prospectifs. De plus, certains cas de maladie, comme la colite ulcéreuse99,100 sont complexes, avec des changements très subtils entre les types d'ulcères légers et graves, ce qui rend plus difficile la classification (précision inférieure à 85 %) à l'aide de méthodes basées sur la DL avec précision.

Les techniques supervisées largement utilisées sont voraces en données et nécessitent de nombreuses annotations humaines. Dans le même temps, les méthodes supervisées peuvent également induire un biais en raison d'étiquettes imparfaites ou d'une distribution différente des données potentiellement due à d'autres modalités d'imagerie ou même en raison de différents dispositifs de portée utilisés pour générer des données. Un ensemble de données iid indépendant et distribué de manière identique est souvent difficile à réaliser101 et ne représente pas la variabilité des patients présente même dans une cohorte de patients sélectionnés avec des procédures endoscopiques similaires et avec le même endoscope. De plus, l'utilisation de ces techniques de manière autonome avec uniquement des étiquettes organisées à partir d'une cohorte de patients fixe a tendance à surajuster les échantillons qui sont prédominants dans d'autres cohortes ou même les mêmes car la variabilité est susceptible de changer avec le temps. De plus, l'imagerie endoscopique comprend l'acquisition multimodale, des vues variées et des changements muqueux qui peuvent être plus variés que toute autre modalité d'imagerie. Le mouvement à main levée des endoscopistes pour visualiser la muqueuse ou un organe peut entraîner des défis inévitables pour l'algorithme. En réalité, des données d'imagerie endoscopique bien organisées ne les captureront pas et peuvent affecter les performances de l'algorithme en clinique. Plusieurs modèles supervisés ont une faible généralisabilité en regardant de très près mais en utilisant simplement un ensemble de données de coloscopie différent102,103. Un travail récemment publié102 a montré que la plupart des architectures DL, y compris UNet largement utilisé, ont signalé une baisse des performances de plus de 20 % lorsqu'un ensemble de données de coloscopie différent était utilisé pour la formation et les tests. Par exemple, UNet a chuté dans le score de similarité Dice de 0,86 lorsque les données d'entraînement et de test étaient utilisées à partir du même ensemble de données public à 0,62 lorsque les données de test différaient de l'ensemble de données de formation. Comme la plupart des travaux effectuent des ensembles de formation, de validation et de test à partir du même ensemble de données, les études de généralisabilité sont très limitées dans l'analyse d'images médicales. Ainsi, ce domaine de recherche est essentiel pour que les algorithmes soient adaptatifs aux ensembles de données produits dans différentes cliniques et dans des proportions variables. Des études antérieures ont montré que les résultats ont été biaisés vers le centre avec plus de données sur la formation même lorsque la formation combinée est effectuée103.

La plupart des méthodes développées utilisent l'imagerie conventionnelle en lumière blanche. Même si les modalités spécialisées se sont avérées utiles pour détecter et diagnostiquer des lésions particulières, très peu de recherches peuvent être trouvées sur des modalités plus spécialisées (voir tableau 1). Par exemple, la chromoendoscopie est une procédure médicale bien établie pour améliorer la caractérisation des tissus de la muqueuse gastro-intestinale104. Au cours de ces procédures, des colorants spéciaux sont utilisés avec l'endoscopie optique. Les détails observés peuvent permettre l'identification de la pathologie. De même, la cystoscopie de fluorescence68 (alias cystoscopie BL ou diagnostic photodynamique) dans les pratiques cliniques de routine peut améliorer la détection et la visualisation des tumeurs papillaires de la vessie et des lésions de carcinome in situ par rapport à la cystoscopie à lumière blanche standard. Alors, pourquoi ne pas exploiter ces données en plus de la modalité conventionnelle de lumière blanche pour une détection et une caractérisation plus précises des lésions ? L'exploration des avenues multimodales fera progresser la détection précoce car elles contiennent de bons modèles visuels souvent non visibles dans les procédures standard (par exemple, la technique endoscopique spectrale105). Cependant, les techniques avancées nécessitent également une formation et une préparation procédurale. Ainsi, apprendre à s'adapter à partir des échantillons existants et des modalités standard largement disponibles utilisées dans les pratiques quotidiennes peut être une voie à suivre. Les techniques d'adaptation de domaine et de généralisation de domaine sont des besoins actuels non satisfaits dans ce domaine.

L'évaluation algorithmique est essentielle pour le développement de meilleures approches scientifiques. Ces évaluations jouent un rôle important dans la détermination de la force des méthodes développées pour la traduction clinique. Dans le contexte des techniques d'apprentissage en profondeur, la taille du jeu de données de test et l'utilisation de métriques d'évaluation reflétant leurs performances sont essentielles. Il est cependant difficile d'établir le nombre d'échantillons de test qui fournissent des résultats non biaisés. Alors que les ensembles de tests invisibles déterminent la généralisabilité des approches, la plupart des techniques supervisées conçues ne sont pas robustes aux distributions de données invisibles106. Par conséquent, les évaluations de généralisabilité ou les tests de robustesse ne sont souvent pas inclus dans la plupart des articles. Même si les métriques standard de vision par ordinateur sont rapportées dans les articles (par exemple, la précision du top 1, le coefficient de Sørensen-Dice, l'intersection sur l'union, la précision et le rappel), il est nécessaire d'inclure une métrique qui évalue le biais entre l'ensemble de validation et l'ensemble de test. Une telle approche peut renforcer la compréhension du réglage des hyperparamètres et de son effet sur l'ensemble de données de test invisible. De plus, la plupart des études actuelles n'étudient pas la distribution des données et n'illustrent pas les diagrammes de distribution démontrant la variance des données et des résultats. Comme les études de variance sont essentielles pour comprendre la cohérence des performances algorithmiques, leur rapport doit être inclus dans le cadre de la validation algorithmique.

Avec les progrès récents dans l'amélioration du matériel, des algorithmes DL ont été conçus qui sont simultanément plus précis et plus rapides. Cependant, le besoin de performances en temps réel pour certaines tâches, en particulier dans la détection, le diagnostic et les procédures chirurgicales des maladies endoscopiques, est plus critique. Pourtant, l'exigence d'un matériel haut de gamme pour obtenir une vitesse et une précision raisonnables peut être économiquement irréalisable dans certains centres de santé ou difficile à adapter en milieu clinique. Par conséquent, il est important d'examiner les choix de conception de réseau, soit sans sacrifier les performances, soit en choisissant de manière appropriée un compromis acceptable entre vitesse et précision. Des réseaux légers plus rapides comme PeleeNet107 avec seulement 5,4 millions de paramètres avec une précision améliorée par rapport aux conceptions SOTA MobileNet108 et Tiny-YOLOv2109 peuvent être envisagés. De plus, les méthodes de compression de modèle peuvent permettre aux méthodes DL d'être exécutées sur des appareils avec des capacités de calcul limitées tout en maintenant les performances compétitives du réseau d'origine. Cette méthode comprend l'élagage, la quantification, la distillation des connaissances et les techniques de recherche d'architecture de réseau110.

La plupart des méthodes sont construites autour d'un cancer plus évident ou de lésions précancéreuses (p. ex., dysplasie de haut grade1,2,68, polypes42,43). La nécessité d'identifier un développement précancéreux précoce subtil reste donc sous-explorée avec l'endoscopie conventionnelle. À cet égard, les changements néoplasiques à un stade très précoce, les inflammations et autres anomalies tissulaires qui expliquent le développement d'infections graves potentiellement mortelles devraient être au centre des nouveaux développements de l'IA. Par exemple, la sensibilité du score MCES chez les patients atteints de MICI est encore faible avec une sensibilité de 83 %, même si une classification binaire a été réalisée combinant les scores 0 et 1 comme une classe et les scores 2 et 3 comme une autre classe11 ce qui est bien inférieur aux autres techniques de classification des lésions. Cependant, les développements actuels, même pour les lésions néoplasiques évidentes, sont certainement intéressants car ils peuvent réduire la subjectivité dans les procédures de traitement et la prise en charge des patients.

Alors que la reconstruction 3D de la muqueuse est explorée depuis plus d'une décennie en raison de l'acquisition difficile d'images endoscopiques, cette direction de recherche reste difficile. Les techniques d'estimation de la profondeur basées sur l'apprentissage en profondeur ont ouvert une opportunité pour la reconstruction 3D de la muqueuse22,84,85,86,87 ; cependant, en raison des trajectoires endoscopiques complexes et des mouvements muqueux, en particulier dans les organes creux tels que le côlon, la visualisation muqueuse de la muqueuse complète en 3D reste un problème ouvert. De plus, les approches basées sur les données doivent encore être innovées en chirurgie pour l'enregistrement préopératoire à postopératoire.

Avec plusieurs modalités complémentaires conçues et utilisées dans les procédures cliniques de routine, y compris l'endoscopie spectrale, la technique de diffusion Raman, la microendoscopie et l'histopathologie numérique (biopsie optique), peu ou pas d'efforts ont été faits pour explorer des méthodes axées sur les données pour les techniques de fusion de données multi-échelles et multimodales. Même si les résultats correspondent à l'endoscopie, par exemple, dans l'endoscopie spectrale105, ces signaux ne sont pas enregistrés dans la région où ils sont générés.

Dans cette revue, les récentes approches d'apprentissage en profondeur visant à minimiser la variabilité inter et intra-observateur dans les procédures cliniques sont mises en évidence. Ces méthodes développées se sont principalement concentrées sur la détection automatique des lésions, la caractérisation, la localisation, la segmentation, l'assistance chirurgicale et la visualisation ou la mesure 3D. Nous avons également souligné les défis et les lacunes actuels de ces approches basées sur l'IA et leurs stratégies de validation. Les articles de recherche dans la communauté endoscopique sont principalement orientés en grande partie sur l'application de méthodes de la communauté de la vision, démontrant de sombres progrès dans le développement de méthodes uniques basées sur des problèmes et un manque d'études multicentriques complètes. La faible validation des algorithmes et la course à la publication ont principalement affecté la qualité de la recherche dans ce domaine. De plus, les besoins actuels sont ignorés pour cette raison, et la plupart des lésions apparentes sont prélevées de manière répétitive au lieu de travailler sur des lésions plates ou sessiles subtiles ou des changements néoplasiques précoces. Prenant une position audacieuse, les orientations futures ci-dessous sont proposées avec l'hypothèse que ces propositions aideront à développer des approches d'IA impartiales, avancées et cliniquement pratiques qui sont les besoins d'aujourd'hui.

Même si chaque procédure endoscopique est unique, les avancées méthodologiques sont plus progressives et répétitives dans l'une que dans l'autre. Bien que cela ouvre une opportunité pour les développeurs d'algorithmes où les applications sont encore rares, le manque d'ensemble de données et la faible participation d'experts cliniques ont rendu ces types de procédures moins attrayants. Cependant, il existe une opportunité et un besoin évidents pour des développements similaires de ces technologies d'assistance informatique dans toutes les procédures endoscopiques afin d'améliorer les soins aux patients. Par exemple, la lutte contre la pathologie gastro-intestinale à l'aide de l'IA fait l'objet d'un nombre écrasant d'articles25,31 (voir la section « Endoscopie gastro-intestinale assistée par ordinateur »). En revanche, bien que les procédures de cystoscopie et d'urétéroscopie soient tout aussi difficiles, la littérature montre que peu de travaux ont été rapportés jusqu'à présent66,71.

Les questions sont « Qu'est-ce qui est difficile à évaluer dans les procédures cliniques de routine » ; et "quelle IA devrait choisir en termes de détection et de diagnostic ?" Les lésions sont-elles faciles à localiser par un clinicien qualifié, ou est-ce difficile à trouver même par un expert (p. ex. lésions peu visibles) ? Des développements algorithmiques spécialisés et un temps plus expert dans la conservation des données sont essentiels pour ce dernier cas. Parallèlement, des modalités complémentaires peuvent jouer un rôle important dans l'évaluation des lésions cachées et subtiles qui peuvent nuire aux patients20,21. Alors que la vision humaine est limitée et que l'esprit ne peut interpréter que ce que l'œil peut comprendre, les ordinateurs peuvent résoudre des données plus complexes telles que des signatures de données multimodales et multi-échelles105. La multimodalité est la clé pour répondre aux questions ci-dessus et est la voie à suivre pour s'attaquer aux lésions difficiles à trouver. Dans le même temps, le multi-échelle peut fournir une caractérisation plus détaillée pour mieux le comprendre, ce qui peut compléter la force de l'IA dans ce domaine.

La validation de la méthode doit d'abord être évaluée sur un ensemble de données rétrospectives multicentriques et hétérogènes. Étant donné que l'apprentissage en profondeur est très sensible à la distribution de données, un modèle formé sur un appareil d'imagerie particulier ou une population peut conduire à un monopole du marché et à un accès limité aux systèmes de santé avancés. En conséquence, cela a un impact significatif sur la société et l'économie. Encourager la communauté de la recherche à inclure des évaluations de généralisabilité est la seule voie vers un écosystème de développement de méthodes plus sûr et souhaitable. Bien que l'accès aux données en raison de problèmes de confidentialité puisse rendre l'évaluation difficile, la voie à suivre dans cette direction consiste à utiliser une approche d'apprentissage fédéré qui permet d'évaluer des données multicentriques et d'aider au développement de méthodes généralisables qui peuvent être utilisées à la fois pour construire et valider des méthodes111.

L'accès à des ensembles de données acquises cliniquement plus accessibles au public, constitués de données conservées et du monde réel, peut être essentiel pour le développement algorithmique et son adaptation aux scénarios cliniques. Certains exemples de ces ensembles de données incluent des vidéos coloscopiques et des annotations associées dans l'ensemble de données LDPolypVideo112 et ROBUST-MIS pour la détection, la segmentation et le suivi des outils chirurgicaux113. Des ensembles de données complets similaires peuvent aider à évaluer les méthodes et encourager les avancées techniques vers la faisabilité translationnelle. De plus, pour évaluer l'utilisabilité dans des scénarios cliniques, les approches développées peuvent également être encouragées à effectuer des études prospectives dans quelques centres communautaires. Idéalement, les études cliniques dans les centres locaux devraient être acceptables pour comprendre la faisabilité translationnelle et les facteurs limitants.

Avec la croissance des architectures de réseau profond et l'analyse de volumes de données plus importants (par exemple, les vidéos en endoscopie), il y a eu une augmentation de la consommation d'énergie et de l'empreinte carbone des méthodes DL qui doivent être traitées par la communauté114. Les équipes éditoriales doivent être encouragées à évaluer chaque travail soumis impliquant des approches basées sur l'IA à l'aide de mesures supplémentaires avant de l'envoyer pour examen par les pairs. Ces paramètres peuvent inclure : (1) les articles qui utilisent des réseaux DL plus grands qui sont impraticables en milieu clinique et qui sont responsables d'une empreinte carbone élevée115 doivent être encouragés à mettre en œuvre des stratégies de compacité du modèle et à justifier les choix de sélection du modèle, (2) l'importance du travail effectué doit être pondérée en évaluant la comparaison de la nouveauté de la méthode par rapport aux méthodes de pointe, et (3) la robustesse par rapport aux expériences de temps d'exécution des tests doit être évaluée. Les travaux soumis doivent clairement décrire ces paramètres dans le résumé de leur article soumis et fournir une liste de contrôle obligatoire en tant que fichier supplémentaire lors de la soumission.

de Groof, AJ et al. Le système d'apprentissage en profondeur détecte la néoplasie chez les patients atteints de l'œsophage de Barrett avec une plus grande précision que les endoscopistes dans une étude de formation et de validation en plusieurs étapes avec analyse comparative. Gastroentérologie 158, 915–929.e4 (2020).

Article Google Scholar

Ebigbo, A. et al. Diagnostic assisté par ordinateur utilisant l'apprentissage en profondeur dans l'évaluation de l'adénocarcinome de l'œsophage précoce. Intestin 68, 1143-1145 (2019).

Article Google Scholar

Zhang, Y. et al. Diagnostiquer la gastrite atrophique chronique par gastroscopie en utilisant l'intelligence artificielle. Creuser. Foie Dis. 52, 566-572 (2020).

Article Google Scholar

Guimarães, P., Keller, A., Fehlmann, T., Lammert, F. et Casper, M. Détection basée sur l'apprentissage en profondeur des conditions précancéreuses gastriques. Intestin 69, 4–6 (2020).

Article Google Scholar

Everson, M. et al. Intelligence artificielle pour la classification en temps réel des modèles de boucles capillaires intrapapillaires dans le diagnostic endoscopique du carcinome épidermoïde précoce de l'œsophage : une étude de preuve de concept. Europe unie. Gastro-entérol. J. 7, 297–306 (2019).

Article CAS Google Scholar

Ozawa, T. et al. Détection endoscopique automatisée et classification des polypes colorectaux à l'aide de réseaux de neurones convolutifs. Thérap. Adv. Gastro-entérol. 13, 1756284820910659 (2020).

Article Google Scholar

Byrne, MF et al. Différenciation en temps réel des polypes colorectaux minuscules adénomateux et hyperplasiques lors de l'analyse de vidéos non modifiées de coloscopie standard à l'aide d'un modèle d'apprentissage en profondeur. Intestin 68, 94-100 (2019).

Article Google Scholar

Song, EM et al. Diagnostic endoscopique et planification du traitement des polypes colorectaux à l'aide d'un modèle d'apprentissage en profondeur. Sci. Rép. 10, 30 (2020).

Jin, EH et al. Amélioration de la précision du diagnostic optique des polypes colorectaux à l'aide de réseaux de neurones convolutionnels avec des explications visuelles. Gastroentérologie 158, 2169–2179.e8 (2020).

Article Google Scholar

Chen, P.-J. et coll. Classification précise des polypes colorectaux diminutifs à l'aide d'une analyse assistée par ordinateur. Gastroentérologie 154, 568–575 (2018).

Article Google Scholar

Stidham, RW et al. Performance d'un modèle d'apprentissage en profondeur par rapport à des examinateurs humains dans le classement de la gravité de la maladie endoscopique des patients atteints de colite ulcéreuse. Réseau JAMA. Ouvert 2, e193963 (2019).

Article Google Scholar

Jin, Y. et al. Réseau convolutif récurrent multi-tâches avec perte de corrélation pour l'analyse vidéo chirurgicale. Méd. Image anale. 59, 101572 (2020).

Article Google Scholar

Colleoni, E., Edwards, P. & Stoyanov, D. Entrées synthétiques et réelles pour la segmentation des outils en chirurgie robotique. In International Conference on Medical Image Computing and Computer-Assisted Intervention – MICCAI (Medical Image Computing and Computer Assisted Intervention, 2020).

Kannan, S., Yengera, G., Mutter, D., Marescaux, J. & Padoy, N. Lstm prédictif de l'état futur pour la reconnaissance précoce du type de chirurgie. IEEE Trans. Méd. Imagerie 39, 556–566 (2020).

Article Google Scholar

Gong, J. et al. Utilisation du deep learning pour identifier le nerf laryngé récurrent lors d'une thyroïdectomie. Sci. Rep. 11, 14306 (2021).

Article CAS Google Scholar

Koo, B. et al. Enregistrement automatique et global en chirurgie laparoscopique du foie. Int. J. Comput. Aider. Radiol. Surg. 17, 167–176 (2022).

Article Google Scholar

Ali, S. et al. Une comparaison objective des algorithmes de détection et de segmentation des artéfacts en endoscopie clinique. Sci. Rép. 10, 1–15 (2020).

Google Scholar

Rees, CJ et al. Indicateurs de performance clés du Royaume-Uni et normes d'assurance qualité pour la coloscopie. Intestin 65, 1923-1929 (2016).

Article Google Scholar

Beg, S. et al. Normes de qualité en endoscopie gastro-intestinale supérieure : un énoncé de position de la Société britannique de gastroentérologie (BSG) et de l'Association des chirurgiens gastro-intestinaux supérieurs de Grande-Bretagne et d'Irlande (AUGIS). Intestin 66, 1886–1899 (2017).

Article Google Scholar

McGill, SK et al. L'intelligence artificielle identifie et quantifie les angles morts de la coloscopie. Endoscopie 53, 1284–1286 (2021).

Article Google Scholar

Wu, L. et al. Essai contrôlé randomisé de wisense, un système d'amélioration de la qualité en temps réel pour la surveillance des angles morts pendant l'œsophagogastroduodénoscopie. Intestin 68, 2161-2169 (2019).

Article Google Scholar

Ali, S. et al. Une étude pilote sur la quantification tridimensionnelle automatique de l'œsophage de Barrett pour la stratification des risques et le suivi thérapeutique. Gastroentérologie 161, 865–878.e8 (2021).

Article Google Scholar

Gupta, S., Ali, S., Goldsmith, L., Turney, B. & Rittscher, J. Mi-unet : amélioration de la segmentation en urétéroscopie. En 2020 IEEE 17th International Symposium on Biomedical Imaging (ISBI) 212–216 (2020).

Shkolyar, E. et al. Détection augmentée des tumeurs de la vessie à l'aide de l'apprentissage en profondeur. EUR. Urol. 76, 714–718 (2019).

Article Google Scholar

Tokat, M., van Tilburg, L., Koch, AD et Spaander, MCW Intelligence artificielle dans l'endoscopie gastro-intestinale supérieure. Creuser. Dis. 40, 395–408 (2022).

Article Google Scholar

Sumiyama, K., Futakuchi, T., Kamba, S., Matsui, H. & Tamai, N. Intelligence artificielle en endoscopie : perspectives présentes et futures. Creuser. Endoc. 33, 218-230 (2021).

Article Google Scholar

Wang, Y., Sun, Q., Liu, Z. & Gu, L. Algorithmes de détection et de suivi visuels pour les instruments chirurgicaux mini-invasifs : un examen complet de l'état de l'art. Rob. Auton. Syst. 149, 103945 (2022).

Article Google Scholar

Anteby, R. et al. Analyse visuelle d'apprentissage profond en chirurgie laparoscopique : une revue systématique et une méta-analyse de la précision des tests de diagnostic. Surg. Endoc. 35, 1521-1533 (2021).

Article Google Scholar

Renna, F. et al. Intelligence artificielle pour l'endoscopie gastro-intestinale supérieure : une feuille de route du développement technologique à la pratique clinique. Diagnostics (Bâle, Suisse) 12, 1278 (2022).

Google Scholar

Misawa, M. et al. État actuel et perspective future de l'intelligence artificielle pour l'endoscopie inférieure. Creuser. Endoc. 33, 273-284 (2021).

Article Google Scholar

Sanchez-Peralta, LF, Bote-Curiel, L., Picon, A., Sanchez-Margallo, FM & Payer, JB Apprentissage en profondeur pour trouver des polypes colorectaux en coloscopie : une revue systématique de la littérature. Artif. Renseignement. Méd. Rév.108, 101923 (2020).

Article Google Scholar

Tontini, GE et al. L'intelligence artificielle en endoscopie gastro-intestinale pour les maladies inflammatoires de l'intestin : une revue systématique et de nouveaux horizons. Thérap. Adv. Gastro-entérol. 14, 17562848211017730 (2021).

Article Google Scholar

Nakase, H. et al. L'endoscopie assistée par intelligence artificielle modifie la définition de la cicatrisation muqueuse dans la rectocolite hémorragique. Creuser. Endoc. 33, 903–911 (2021).

Google Scholar

Okagawa, Y., Abe, S., Yamada, M., Oda, I. & Saito, Y. Intelligence artificielle en endoscopie. Creuser. Dis. Sci. 67, 1553-1572 (2022).

Article Google Scholar

Corley, DA et al. Taux de détection des adénomes et risque de cancer colorectal et de décès. N. Engl. J. Med. 370, 1298-1306 (2014). PMID : 24693890.

Article CAS Google Scholar

Schmelzle, M., Krenzien, F., Schöning, W. & Pratschke, J. Résection hépatique laparoscopique : indications, limites et aspects économiques. Arc de Langenbeck. Surg. 405, 725–735 (2020).

Article Google Scholar

Kim, J.-J. et coll. Visualisation à grand champ de vision utilisant plusieurs caméras miniaturisées pour la chirurgie laparoscopique. Micromachines (Bâle) 9, 431 (2018).

Zhou, W. et al. Validation en plusieurs étapes d'un système basé sur l'apprentissage profond pour la quantification de la préparation intestinale : une étude prospective et observationnelle. Chiffre Lancette. Santé 3, e697–e706 (2021).

Article Google Scholar

Guo, L. et al. Diagnostic automatisé en temps réel des lésions précancéreuses et du carcinome épidermoïde précoce de l'œsophage à l'aide d'un modèle d'apprentissage en profondeur (avec vidéos). Intérêt gastro-intestinal. Endoc. 91, 41-51 (2020).

Article Google Scholar

Banks, M. et al. Lignes directrices de la British Society of Gastroenterology sur le diagnostic et la prise en charge des patients à risque d'adénocarcinome gastrique. Intestin 68, 1545-1575 (2019).

Article Google Scholar

Mu, G. et al. Classification de niveau expert de la gastrite par endoscopie utilisant l'apprentissage en profondeur : un essai de diagnostic multicentrique. Endoc. Int. Ouvert 09, E955–E964 (2021).

Article Google Scholar

Misawa, M. et al. Détection de polypes assistée par intelligence artificielle pour la coloscopie : première expérience. Gastroentérologie 154, 2027–2029.e3 (2018).

Article Google Scholar

Urban, G. et al. L'apprentissage en profondeur localise et identifie les polypes en temps réel avec une précision de 96 % lors de la coloscopie de dépistage. Gastroentérologie 155, 1069–1078.e8 (2018).

Article Google Scholar

Ozawa, T. et al. Nouveau système de diagnostic assisté par ordinateur pour l'activité endoscopique de la maladie chez les patients atteints de colite ulcéreuse. Intérêt gastro-intestinal. Endoc. 89, 416–421.e1 (2019).

Article Google Scholar

Becker, BG et al. Formation et déploiement d'un modèle d'apprentissage en profondeur pour le classement endoscopique de la gravité de la colite ulcéreuse à l'aide de données d'essais cliniques multicentriques. Thérap. Adv. Intérêt gastro-intestinal. Endoc. 14, 2631774521990623 (2021).

Google Scholar

Klang, E. et al. Algorithmes d'apprentissage en profondeur pour la détection automatisée des ulcères de la maladie de Crohn par endoscopie vidéo par capsule. Intérêt gastro-intestinal. Endoc. 91, 606–613.e2 (2020).

Article Google Scholar

Mascarenhas Saraiva, MJ et al. Apprentissage profond et endoscopie capsulaire : identification et différenciation automatique des lésions de l'intestin grêle à potentiel hémorragique distinct à l'aide d'un réseau de neurones convolutifs. BMJ Open Gastroenterol. 8, e000753 (2021).

Zhou, D. et al. Évaluation diagnostique d'un modèle d'apprentissage en profondeur pour le diagnostic optique du cancer colorectal. Nat. Commun. 11, 2961 (2020).

Article CAS Google Scholar

Bernal, J. et al. Validation comparative des méthodes de détection des polypes en vidéo coloscopie : résultats du challenge vision endoscopique miccai 2015. IEEE Trans. Méd. Imagerie 36, 1231–1249 (2017).

Article Google Scholar

Qadir, HA et al. Détection et segmentation des polypes à l'aide du masque r-cnn : un extracteur de caractéristiques plus profond cnn est-il toujours plus performant ? En 2019, 13e Symposium international sur les technologies de l'information et de la communication médicales (ISMICT) 1–6 (2019).

Wan, J., Chen, B. & Yu, Y. Détection de polypes à partir d'images colorectum en utilisant yolov5 attentif. Diagnostics 11, 2264 (2021).

Article Google Scholar

Wang, D. et al. AFP-Net : détection en temps réel des polypes sans ancre en coloscopie. En 2019, 31e Conférence internationale de l'IEEE sur les outils avec intelligence artificielle (ICTAI) 636–643 (IEEE, 2019).

Law, H. & Deng, J. Cornernet : détection d'objets en tant que points clés appariés. Dans Actes de la Conférence européenne sur la vision par ordinateur (ECCV) 734–750 (2018).

González-Bueno Puyal, J. et al. Détection de polypes sur coloscopie vidéo à l'aide d'un cnn hybride 2d/3d. Méd. Image anale. 82, 102625 (2022).

Ghatwary, N., Zolgharni, M., Janan, F. & Ye, X. Apprentissage des caractéristiques spatio-temporelles pour la détection des anomalies œsophagiennes à partir de vidéos endoscopiques. IEEE J. Biomed. Informer sur la santé. 25, 131-142 (2020).

Article Google Scholar

Nguyen, N.-Q. & Lee, S.-W. Segmentation robuste des frontières dans les images médicales à l'aide d'un réseau d'encodeurs-décodeurs profonds consécutifs. Accès IEEE 7, 33795–33808 (2019).

Article Google Scholar

Tomar, NK, Jha, D., Bagci, U. & Ali, S. TGANet : attention guidée par le texte pour une meilleure segmentation des polypes. In Medical Image Computing and Computer Assisted Intervention – MICCAI 2022, 151–160 (Springer Nature Suisse, Cham, 2022).

Safarov, S. & Whangbo, TK A-DenseUNet : unet adaptatif densément connecté pour la segmentation des polypes dans les images de coloscopie avec convolution atreuse. Capteurs 21, 1441 (2021).

Article Google Scholar

Zhang, Y., Liu, H. & Hu, Q. TransFuse : fusionner des transformateurs et des cnn pour la segmentation d'images médicales. In Medical Image Computing and Computer Assisted Intervention – MICCAI 2021 : 24th International Conference, Strasbourg, France, 27 septembre-1er octobre 2021, Actes, Partie I, 14–24 (Springer-Verlag, Berlin, Heidelberg, 2021). https://doi.org/10.1007/978-3-030-87193-2_2.

Duc, NT, Oanh, NT, Thuy, NT, Triet, TM & Dinh, VS ColonFormer : une méthode efficace basée sur un transformateur pour la segmentation des polypes du côlon. Accès IEEE 10, 80575–80586 (2022).

Article Google Scholar

Madad Zadeh, S. et al. SurgAI : apprentissage approfondi pour la compréhension informatisée des images laparoscopiques en gynécologie. Surg. Endoc. 34, 5377–5383 (2020).

Article Google Scholar

Namazi, B., Sankaranarayanan, G. & Devarajan, V. Un détecteur contextuel d'outils chirurgicaux dans des vidéos laparoscopiques utilisant l'apprentissage en profondeur. Surg. Endoc. 36, 679–688 (2022).

Article Google Scholar

Samuel, DJ & Cuzzolin, F. Détection d'anomalies non supervisée pour un assistant chirurgien robotique autonome intelligent (SARAS) à l'aide d'un auto-encodeur résiduel profond. Robot IEEE. Autom. Lett. 6, 7256–7261 (2021).

Article Google Scholar

Al Hajj, H., Lamard, M., Conze, P.-H., Cochener, B. & Quellec, G. Utilisation de l'outil de surveillance dans les vidéos de chirurgie à l'aide de réseaux de neurones convolutifs et récurrents boostés. Méd. Image anale. 47, 203-218 (2018).

Article Google Scholar

Koo, B. et al. Enregistrement automatique et global en chirurgie laparoscopique du foie. Int. J. Comput. Aider. Radiol. Surg. 17, 167–176 (2022).

Article Google Scholar

Ikeda, A. et al. Système d'aide au diagnostic cystoscopique du cancer de la vessie basé sur l'intelligence artificielle. J.Endourol. 34, 352–358 (2020).

Article Google Scholar

Shkolyar, E. et al. Détection augmentée des tumeurs de la vessie à l'aide de l'apprentissage en profondeur. EUR. Urol. 76, 714–718 (2019).

Article Google Scholar

Ali, N. et al. Classification basée sur l'apprentissage profond de l'imagerie par cystoscopie en lumière bleue lors de la résection transurétrale des tumeurs de la vessie. Sci. Rep. 11, 11629 (2021).

Article CAS Google Scholar

Black, KM, Law, H., Aldoukhi, A., Deng, J. & Ghani, KR Algorithme de vision par ordinateur d'apprentissage en profondeur pour détecter la composition des calculs rénaux. Br. J. Urol. Int. 125, 920–924 (2020).

Article CAS Google Scholar

Lopez, F. et al. Évaluation des méthodes d'apprentissage profond pour l'identification des calculs rénaux dans les images endoscopiques. En 2021, 43e Conférence internationale annuelle de l'IEEE Engineering in Medicine and Biology Society (EMBC) 2778–2781 (2021).

Gupta, S., Ali, S., Goldsmith, L., Turney, B. et Rittscher, J. Segmentation sémantique multi-classes basée sur le mouvement pour l'urétéroscopie et la lithotripsie au laser. Calcul. Méd. Graphique d'imagerie. 101, 102112 (2022).

Article Google Scholar

Ronneberger, O., Fischer, P. & Brox, T. U-net : réseaux convolutifs pour la segmentation d'images biomédicales. Dans Conférence internationale sur l'informatique médicale et l'intervention assistée par ordinateur, 234-241 (Springer, 2015).

Li, C. et al. Développement et validation d'un modèle d'apprentissage profond basé sur des images endoscopiques pour la détection des tumeurs malignes du nasopharynx. Cancer Commun. (Londres.) 38, 59 (2018).

Article Google Scholar

Parker, F., Brodsky, MB, Akst, LM & Ali, H. Apprentissage automatique dans l'analyse de la laryngoscopie : une étude d'observation de preuve de concept pour l'identification des ulcérations et des granulomes post-extubation. Ann. Otol. Rhinol. Laryngol. 130, 286-291 (2021).

Article Google Scholar

Gong, J. et al. Utilisation du deep learning pour identifier le nerf laryngé récurrent lors d'une thyroïdectomie. Sci. Rep. 11, 14306 (2021).

Article CAS Google Scholar

Yoo, JY et al. Apprentissage profond pour l'interprétation anatomique des images de bronchoscopie vidéo. Sci. Rep. 11, 23765 (2021).

Article CAS Google Scholar

Żurek, M., Jasak, K., Niemczyk, K. & Rzepakowska, A. Intelligence artificielle dans l'endoscopie laryngée : revue systématique et méta-analyse. J.Clin. Méd. 11, 2752 (2022).

Article Google Scholar

Shelhamer, E., Long, J. & Darrell, T. Réseaux entièrement convolutionnels pour la segmentation sémantique. IEEE Trans. Modèle Anal. Mach. Renseignement. 39, 640–651 (2017).

Article Google Scholar

Ali, S. et al. Un cadre d'apprentissage en profondeur pour l'évaluation et la restauration de la qualité en endoscopie vidéo. Méd. Image anale. 68, 101900 (2021).

Article Google Scholar

Chang, Y.-Y. et coll. Développement et validation d'un algorithme basé sur l'apprentissage profond pour l'évaluation de la qualité de la coloscopie. Sur. Endoc. 36, 6446–6455. https://doi.org/10.1007/s00464-021-08993-y (2022).

Nam, JH, Oh, DJ, Lee, S., Song, HJ & Lim, YJ Développement et vérification d'un algorithme d'apprentissage en profondeur pour évaluer la qualité de la préparation de l'intestin grêle. Diagnostics (Bâle) 11, 1127 (2021).

Article Google Scholar

Lui, Q. et al. Classification des sites anatomiques basée sur l'apprentissage profond pour l'endoscopie gastro-intestinale supérieure. Int. J. Comput. Assis. Radiol. Surg. 15, 1085-1094 (2020).

Article Google Scholar

Sun, M. et al. Réseau basé sur la séparation des canaux pour la reconnaissance automatique du site anatomique à l'aide d'images endoscopiques. Biomédical. Processus de signalisation. Contrôle 71, 103167 (2022).

Article Google Scholar

Liu, X. et al. Estimation de la profondeur dense en endoscopie monoculaire avec des méthodes d'apprentissage auto-supervisé. IEEE Trans. Méd. Imagerie 39, 1438–1447 (2020).

Article Google Scholar

Liu, S. et al. Estimation conjointe de la profondeur et du mouvement à partir d'une séquence d'images d'endoscopie monoculaire à l'aide d'un réseau de rééquilibrage multi-perte. Biomédical. Opter. Express 13, 2707–2727 (2022).

Article Google Scholar

Ozyoruk, KB et al. Ensemble de données Endoslam et approche d'odométrie visuelle monoculaire non supervisée et d'estimation de profondeur pour les vidéos endoscopiques. Méd. Image anale. 71, 102058 (2021).

Article Google Scholar

Shao, S. et al. Estimation auto-supervisée de la profondeur monoculaire et des mouvements de l'ego en endoscopie : flux d'apparence à la rescousse. Méd. Image anale. 77, 102338 (2022).

Article Google Scholar

Ren, S., He, K., Girshick, R. & Sun, J. Faster R-CNN : vers la détection d'objets en temps réel avec des réseaux de proposition de région. Dans Advances in Neural Information Processing Systems, 91–99 (2015).

Redmon, J., Divvala, S., Girshick, R. & Farhadi, A. Vous ne regardez qu'une seule fois : détection unifiée d'objets en temps réel. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, 779–788 (2016).

Chen, L.-C., Papandreou, G., Kokkinos, I., Murphy, K. & Yuille, AL Deeplab : segmentation d'images sémantiques avec des réseaux convolutionnels profonds, une convolution atreuse et des crfs entièrement connectés. IEEE Trans. Modèle Anal. Mach. Renseignement. 40, 834–848 (2017).

Article Google Scholar

Simonyan, K. & Zisserman, A. Réseaux convolutionnels très profonds pour la reconnaissance d'images à grande échelle. Dans Conférence internationale sur les représentations de l'apprentissage (2015).

He, K., Zhang, X., Ren, S. & Sun, J. Apprentissage résiduel profond pour la reconnaissance d'images. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, 770–778 (2016).

Tan, M. & Le, QV Efficientnet : repenser la mise à l'échelle des modèles pour les réseaux de neurones convolutifs. Dans Actes de la 36e Conférence internationale sur l'apprentissage automatique, ICML 2019, 9-15 juin 2019, Long Beach, Californie, États-Unis Vol. 97 of Proceedings of Machine Learning Research (eds Chaudhuri, K. & Salakhutdinov, R.) 6105–6114 (PMLR, 2019).

Zhao, Q. & Chi, T. Le modèle d'apprentissage en profondeur peut améliorer le taux de diagnostic de la gastrite atrophique chronique endoscopique : une étude de cohorte prospective. BMC Gastroentérol. 22, 133 (2022).

Article Google Scholar

Klare, P. et al. Détection automatisée des polypes dans le colorectum : une étude prospective (avec vidéos). Intérêt gastro-intestinal. Endoc. 89, 576–582.e1 (2019).

Article Google Scholar

Zhao, Z. et al. Méta-adaptation en ligne guidée par ancre pour une segmentation rapide des instruments à partir de vidéos chirurgicales robotiques. Méd. Image anale. 74, 102240 (2021).

Article Google Scholar

Khadka, R. et al. Méta-apprentissage avec gradients implicites dans un cadre à quelques prises de vue pour la segmentation d'images médicales. Calcul. Biol. Méd. 143, 105227 (2022).

Article Google Scholar

Zhao, X. et al. Réseau d'attention spatio-temporel semi-supervisé pour la segmentation des polypes vidéo. In Medical Image Computing and Computer Assisted Intervention – MICCAI 2022 – 25th International Conference, Singapour, 18–22 septembre 2022, Actes, Partie IV, vol. 13434 des notes de cours en informatique, 456–466 (Springer, 2022).

Turan, M. & Durmus, F. UC-NfNet : évaluation de la colite ulcéreuse basée sur l'apprentissage en profondeur à partir d'images de coloscopie. Méd. Image anale. 82, 102587 (2022).

Article Google Scholar

Xu, Z., Ali, S., East, J. & Rittscher, J. Perte de marge angulaire additive et réseau de mise à l'échelle du modèle pour une notation optimisée de la colite. En 2022 IEEE 19th International Symposium on Biomedical Imaging (ISBI) 1–5 (2022).

Liu, X., Sanchez, P., Thermos, S., O'Neil, AQ & Tsaftaris, SA Apprentissage des représentations désenchevêtrées dans le domaine de l'imagerie. Méd. Image anale. 80, 102516 (2022).

Article Google Scholar

Srivastava, A. et al. MSRF-Net : un réseau de fusion résiduelle multi-échelle pour la segmentation d'images biomédicales. IEEE J. Biomed. Informatique de santé 26, 2252–2263 (2022).

Article Google Scholar

Bar, O. et al. Impact des données sur la généralisation de l'IA pour les applications d'intelligence chirurgicale. Sci. Rep. 10, 22208 (2020).

Article CAS Google Scholar

Xu, J. et al. Apprentissage en profondeur pour l'identification du carcinome du nasopharynx en utilisant à la fois la lumière blanche et l'endoscopie d'imagerie à bande étroite. Laryngoscope 132, 999-1007 (2022).

Article Google Scholar

Waterhouse, DJ et al. L'endoscopie spectrale améliore le contraste pour la néoplasie dans la surveillance de l'œsophage de Barrett. Cancer Rés. 81, 3415–3425 (2021).

Article CAS Google Scholar

Linardos, A., Kushibar, K., Walsh, S., Gkontra, P. & Lekadir, K. Apprentissage fédéré pour le diagnostic par imagerie multicentrique : une étude de simulation dans les maladies cardiovasculaires. Sci. Rep. 12, 3551 (2022).

Article CAS Google Scholar

Wang, RJ, Li, X. & Ling, CX Pelee : un système de détection d'objets en temps réel sur les appareils mobiles. Dans Advances in Neural Information Processing Systems 31, (eds Bengio, S. et al.) 1967–1976 (Curran Associates, Inc., 2018). http://papers.nips.cc/paper/7466-pelee-a-real-time-object-detection-system-on-mobile-devices.pdf.

Howard, AG et al. Mobilenets : réseaux de neurones convolutifs efficaces pour les applications de vision mobile. CoRR abs/1704.04861. http://arxiv.org/abs/1704.04861 (2017).

Redmon, J., Divvala, S., Girshick, R. & Farhadi, A. Vous ne regardez qu'une seule fois : détection unifiée d'objets en temps réel. En 2016, Conférence IEEE sur la vision par ordinateur et la reconnaissance de formes (CVPR) 779–788 (2016).

Wang, C.-H. et coll. Apprentissage profond léger : un aperçu. Dans IEEE Consumer Electronics Magazine 1–12 (2022).

Rieke, N. et al. L'avenir de la santé numérique avec l'apprentissage fédéré. npj Chiffre. Méd. 3, 119 (2020).

Ma, Y., Chen, X., Cheng, K., Li, Y. & Sun, B. Référence Ldpolypvideo : un ensemble de données vidéo de coloscopie à grande échelle de divers polypes. In Medical Image Computing and Computer Assisted Intervention – MICCAI 2021 : 24th International Conference, Strasbourg, France, 27 septembre–1er octobre 2021, Actes, Partie V, 387–396 (Springer-Verlag, Berlin, Heidelberg, 2021).

Maier-Hein, L. et al. Ensemble de données colorectales Heidelberg pour la science des données chirurgicales dans la salle d'opération du capteur. Sci. Données 8, 101 (2021).

Selvan, R., Bhagwat, N., Wolff Anthony, LF, Kanding, B. & Dam, EB Empreinte carbone de la sélection et de la formation de modèles d'apprentissage en profondeur pour l'analyse d'images médicales. In Medical Image Computing and Computer Assisted Intervention – MICCAI 2022, 506–516 (Springer Nature Suisse, Cham, 2022).

Masanet, E., Shehabi, A., Lei, N., Smith, S. & Koomey, J. Recalibrage des estimations de la consommation d'énergie des centres de données mondiaux. Sciences 367, 984–986 (2020).

Article CAS Google Scholar

Nakagawa, K. et al. Classification de la profondeur d'invasion du carcinome épidermoïde de l'œsophage à l'aide d'un réseau neuronal profond par rapport à des endoscopistes expérimentés. Gastroint. Endoc. 90, 407–414 (2019).

Article Google Scholar

Shiroma, S. et al. Capacité de l'intelligence artificielle à détecter le carcinome épidermoïde de l'œsophage t1 à partir de vidéos endoscopiques et les effets de l'assistance en temps réel. Sci. Rep. 11, 7759 (2021).

Article CAS Google Scholar

Kim, YJ et al. Nouvelle technique de classification d'images de polypes utilisant l'apprentissage par transfert de la structure réseau dans réseau dans les images endoscopiques. Sci. Rep. 11, 3605 (2021).

Article CAS Google Scholar

Yamada, M. et al. Développement d'un système d'aide au diagnostic par image endoscopique en temps réel utilisant la technologie d'apprentissage profond en coloscopie. Sci. Rep. 9, 14465 (2019).

Lee, J. et al. Détection en temps réel des polypes du côlon pendant la coloscopie à l'aide de l'apprentissage en profondeur : validation systématique avec quatre ensembles de données indépendants. Sci. Rep. 10, 8379 (2020).

Zachariah, R. et al. La prédiction de la pathologie des polypes à l'aide de réseaux de neurones convolutifs atteint les seuils de "résection et rejet". Suis J Gastroenterol. 115, 138-144 (2020).

Article Google Scholar

Ito, N. et al. Système d'aide au diagnostic endoscopique du cancer colorectal ct1b par apprentissage profond. Oncologie 96, 44–50 (2019).

Article Google Scholar

Hashemi, SMR, Hassanpour, H., Kozegar, E. & Tan, T. Classification d'images cystoscopiques par apprentissage non supervisé des caractéristiques et fusion de classificateurs. Accès IEEE 9, 126610–126622 (2021).

Article Google Scholar

Stoebner, ZA, Lu, D., Hong, SH, Kavoussi, NL & Oguz, I. Segmentation des calculs rénaux dans les flux vidéo endoscopiques. Dans Imagerie médicale 2022 : Traitement d'images Vol. 12032 (eds Colliot, O. & Išgum, I.) 900–908. Société internationale d'optique et de photonique (SPIE, 2022). https://doi.org/10.1117/12.2613274.

Ali, S. et al. Enregistrement robuste de l'image de la vessie en redéfinissant le terme de données dans une approche variationnelle totale. Dans Imagerie médicale 2015 : Traitement d'images, Vol. 9413 (eds Ourselin, S. & Styner, MA) 386–397. Société internationale d'optique et de photonique (SPIE, 2015). https://doi.org/10.1117/12.2077658.

Qin, F. et al. Vers une meilleure segmentation des instruments chirurgicaux en vision endoscopique : agrégation de traits multi-angles et supervision des contours. Robot IEEE. Autom. Lett. 5, 6639–6646 (2020).

Article Google Scholar

Ali, S. et al. Apprentissage profond pour la détection et la segmentation d'artefacts et d'instances de maladies en endoscopie gastro-intestinale. Méd. Image anale. 70, 102002 (2021).

Article Google Scholar

Ali, S. et al. Évaluer la généralisabilité des méthodes de détection et de segmentation des polypes basées sur l'apprentissage profond par le biais d'un défi de vision par ordinateur. Préimpression à arXiv : 2202.12031 (2022).

Ali, S. et al. Fusion préopératoire à la laparoscopie peropératoire. https://doi.org/10.5281/zenodo.6362162 (2022).

Ali, S. Flux optique variationnel total pour un mosaïquage d'images de vessie robuste et précis. Thèse de doctorat, Université de Lorraine (2016).

Ángeles Cerón, JC, Ruiz, GO, Chang, L. & Ali, S. Segmentation d'instances en temps réel d'instruments chirurgicaux utilisant l'attention et la fusion de fonctionnalités multi-échelles. Méd. Image anale. 81, 102569 (2022).

Article Google Scholar

Télécharger les références

Je tiens à remercier l'École d'informatique de la Faculté d'ingénierie et des sciences physiques de l'Université de Leeds, au Royaume-Uni, pour son soutien à cette recherche.

École d'informatique, Université de Leeds, LS2 9JT, Leeds, Royaume-Uni

Shareb Ali

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

SA a généré l'idée, rassemblé toutes les sources de la littérature, planifié le plan, et écrit et édité le manuscrit.

Correspondance à Sharib Ali.

L'auteur ne déclare aucun intérêt concurrent.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Ali, S. Où en sommes-nous dans l'IA pour l'analyse d'images endoscopiques ? Décrypter les lacunes et les orientations futures. npj Chiffre. Méd. 5, 184 (2022). https://doi.org/10.1038/s41746-022-00733-3

Télécharger la citation

Reçu : 04 juillet 2022

Accepté : 29 novembre 2022

Publié: 20 décembre 2022

DOI : https://doi.org/10.1038/s41746-022-00733-3

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

PARTAGER