banner

Nouvelles

Dec 25, 2023

Évaluation de l'importance marginale et modulaire en individuel

Rapports scientifiques volume 13, Numéro d'article : 7868 (2023) Citer cet article

266 accès

1 Altmétrique

Détails des métriques

Les réseaux spécifiques à l'individu, définis comme des réseaux de nœuds et de bords de connexion propres à un individu, sont des outils prometteurs pour la médecine de précision. Lorsque ces réseaux sont biologiques, l'interprétation des modules fonctionnels au niveau individuel devient possible. Un problème sous-étudié est l'évaluation de la pertinence ou de la "signification" de chaque réseau spécifique à un individu. Cet article propose de nouvelles procédures d'évaluation de l'importance des bords et des modules pour les réseaux individuels pondérés et non pondérés. Plus précisément, nous proposons une distance de Cook modulaire en utilisant une méthode qui implique la modélisation itérative d'une arête par rapport à toutes les autres dans un module. Deux procédures évaluant les changements entre l'utilisation de tous les individus et l'utilisation de tous les individus mais en omettant un individu (LOO) sont également proposées (LOO-ISN, MultiLOO-ISN), en s'appuyant sur des bords dérivés empiriquement. Nous comparons nos propositions aux concurrents, y compris les adaptations des méthodes OPTICS, kNN et Spoutlier, par une étude de simulation approfondie, basée sur des scénarios réels pour la co-expression génique et les réseaux d'interaction microbienne. Les résultats montrent les avantages d'effectuer des évaluations d'importance modulaires par rapport aux bords pour des réseaux spécifiques à un individu. De plus, la distance de Cook modulaire est parmi les plus performantes dans tous les paramètres de simulation considérés. Enfin, l'identification des individus périphériques concernant leurs réseaux spécifiques à l'individu est significative à des fins de médecine de précision, comme le confirme l'analyse du réseau des profils d'abondance du microbiome.

Lors de l'analyse de la relation entre les caractéristiques biologiques et les traits complexes, il est souvent impossible de caractériser le résultat ou le phénotype avec un seul gène ou une seule voie1, et des caractérisations plus avancées sont nécessaires. Les maladies complexes n'ont pas de cause unique, mais résultent d'une accumulation de variations différentes et interdépendantes2. Les progrès de la biotechnologie, tels que les développements dans les modalités d'imagerie à haute résolution et les méthodes de séquençage à haut débit, ont rendu disponibles des données interdépendantes de haute dimension sur des collections croissantes d'individus. Ces données doivent être analysées de manière robuste et stable. La médecine de réseau permet d'aller au-delà des analyses univariées et d'embrasser la complexité des réseaux biologiques2,3.

Les réseaux se prêtent bien à la visualisation et à l'analyse de multiples processus biologiques en médecine. Un réseau est un ensemble d'objets connectés. Les objets sont appelés nœuds ou sommets. Ils sont généralement visualisés sous forme de points. Les connexions entre les nœuds sont appelées arêtes ou liens. Celles-ci sont dessinées graphiquement sous forme de lignes entre les points. Ces réseaux peuvent être complétés par des informations supplémentaires, telles que des étiquettes de nœud ou des poids de bord. Un module est un sous-réseau composé d'un sous-ensemble de nœuds et d'arêtes sélectionnés. La modularité du réseau mesure la force de la division d'un réseau en modules. Plus de détails sont dans le tableau S1. Les constructions théoriques des graphes telles que les modules peuvent être plus robustes et efficaces que les variables cliniques traditionnelles dans les modèles prédictifs ou descriptifs4. Ils sont souvent comparés entre les graphiques, où chaque graphique peut représenter une condition ou un état différent (par exemple, malade ou sain). Comme nous le verrons plus tard, les réseaux peuvent également être construits pour chaque individu séparément.

Des modèles biologiques basés sur la population, qui déduisent les contours des réseaux biologiques en regroupant des échantillons ou en fixant un câblage de réseau unique applicable à tous les individus d'un groupe cible, ont été utilisés pour extraire des caractéristiques pour des analyses éclairées en aval5 ou pour guider la détection et l'interprétation de l'épistasie à l'aide du génome - conceptions d'études d'association à l'échelle6. Du point de vue de la médecine personnalisée, il a également été démontré qu'ils aident à tirer des conclusions spécifiques au patient (par exemple,7). Cependant, un médicament "taille unique" n'est plus acceptable8,9, et l'extrapolation des conclusions à partir de réseaux dérivés de la population peut ne pas être suffisamment spécifique pour un individu particulier. De plus, alors que les interactions statistiques se produisent au niveau de la population, les interactions biologiques se produisent au niveau individuel10. Ainsi, étant donné que les interactomes biologiquement pertinents peuvent varier d'un individu à l'autre, la construction de réseaux spécifiques à l'individu avec des bords spécifiques à l'individu a suscité un intérêt croissant.

Ici, nous définissons un réseau spécifique à l'individu (ISN) comme un réseau décrivant un seul individu, avec des bords (poids des bords) qui peuvent différer entre les individus. Par conséquent, comparer des RSI implique de comparer des câblages de réseau potentiellement différents. Des exemples d'ISN qui correspondent à cette définition sont les réseaux différentiels de11,12 et les réseaux complétés de13,14,15. Dans les réseaux différentiels, les poids de bord spécifiques à l'individu sont obtenus en comparant les poids de bord basés sur la population entre l'ensemble de la population et la population avec l'individu ajouté ou supprimé. Par conséquent, les bords contiennent des informations sur l'influence d'un individu sur une population. Dans les réseaux complets, chaque ISN est autonome et suppose qu'un individu provient d'une distribution avec le réseau de référence basé sur la population comme réseau attendu. L'étude de nouvelles méthodes de mesure de la variation, par exemple via des bords et des modules spécifiques à l'individu, peut fournir une perspective différente sur l'analyse des données existantes, afin d'améliorer l'identification des endotypes, la prédiction des risques et la planification du traitement.

Les réseaux individuels ne sont pas un nouveau concept. En principe, une fois que nous avons suffisamment d'informations sur un individu, prises dans le temps ou dans de multiples conditions, nous pouvons exploiter la multiplicité et construire un réseau qui est unique à cet individu. Plusieurs exemples sont liés aux neurosciences16,17,18,19. D'autres sont liés à des réseaux fonctionnels entre cellules (par exemple, reflétant les positions des cellules bêta dans des tranches de tissu20). Cependant, très souvent, les données recueillies sont statiques ou se rapportent à une seule condition. Par conséquent, l'un des défis des ISN comprend leur construction en l'absence de mesures répétées dans le temps ou les conditions. Les premières approches d'inférence de bord dans ce sens ont été discutées et développées en 21 et 13 et dépendent de la sélection d'une population de référence, de l'ajout ou de la suppression d'un individu et de la réestimation du réseau avec la population augmentée ou réduite, respectivement. Un autre défi est de savoir comment extraire les informations pertinentes d'un ISN dérivé. La pratique courante consiste à agréger les informations, telles que la moyenne des poids de bord dans chaque ISN, puis à rechercher les associations avec les phénotypes d'intérêt (par exemple, la réaction médicamenteuse et le délai avant l'événement clinique22,23). L'objectif le plus courant des études qui incluent les ISN en entrée est la prédiction (pour une revue, voir24). Cela implique généralement d'extraire des caractéristiques théoriques des graphes et de les relier à un phénotype d'intérêt. Malheureusement, cela peut diluer tout le potentiel que les NSI apportent25. Le premier défi est souvent mal relevé : pour quels individus est-il indispensable de construire et d'interpréter une NSI ?

Dans ce travail, nous relevons le défi d'évaluer si un réseau construit spécifique à un individu diffère significativement d'un réseau basé sur la population tout en embrassant la complexité du réseau au-delà des bords. Nous le faisons en formulant le défi comme un problème de détection des valeurs aberrantes (c'est-à-dire le problème de trouver des modèles dans les données qui ne correspondent pas au comportement attendu). Nous nous concentrons sur les ISNs de Kuijjer13, définis dans le II. sous-section de la section "Méthodes" lors de l'élaboration et de l'évaluation des stratégies d'évaluation de l'importance marginale et modulaire. Ces réseaux sont ci-après appelés ISN-L (abréviation de LIONESS, le nom de l'approche ISN de Kuijjer). Une étape intermédiaire nécessaire pour le calcul des ISNs-L est le réseau dérivé d'une population de référence en supprimant un individu, que nous appelons réseau LOO. Les réseaux ISN-L présentent de nombreux avantages. Cardinalement, il permet la traduction des stratégies d'interprétation du réseau de la population à l'individu ; cela permet également de se concentrer sur chaque individu et ses dynamiques et associations spécifiques ; enfin, elle s'écarte de la notion de réseau issu d'un ensemble d'individus pouvant être vu comme un modèle pour un individu moyen. Par ailleurs, pour compléter nous comparons les résultats obtenus sur ISNs-L avec des résultats sur une autre approche ISN : SSN (sample-specific network)21.

Notre travail permet de dépasser les limites des pratiques actuelles avec les NSI. La principale limite est que l'évaluation de l'importance d'un ISN repose généralement sur des statistiques à grand échantillon qui impliquent des échantillons hautement corrélés (ne différant les uns des autres que par un seul échantillon). Par conséquent, l'évaluation de la signification statistique des ISNs-L et, de cette manière, l'identification des individus extrêmes ou exceptionnels reste un problème sous-étudié. De plus, l'évaluation de l'importance est, au mieux, vérifiée par arête. Des exemples populaires impliquent des réseaux différentiels développés en14,21,26. Les évaluations de l'importance à un seul bord ont signalé des limites27. Les bords peuvent ne pas se produire dans un isolement total, mais dans un écosystème fortement connecté et interdépendant imposé par l'ensemble du réseau. Tant d'un point de vue analytique que translationnel, les modules peuvent donc être des instruments plus adaptés pour évaluer la signification statistique d'un individu à travers son NSI. À notre connaissance, il n'existe aucun rapport formel sur l'évaluation de l'importance des modules dans le contexte de la détection des valeurs aberrantes de l'ISN.

Les principales contributions de ce travail sont les suivantes : (i) développement de nouvelles méthodes de détection des valeurs aberrantes, en particulier une mesure de distance de Cook modulaire modifiée et des méthodes d'exclusion (LOO-ISN et MultiLOO-ISN) ; (ii) personnalisation des méthodes de détection de valeurs aberrantes existantes kNN, OPTICS et Spoutlier pour tenir compte des ISN ; (iii) introduction et évaluation de la pertinence d'un nouveau paradigme d'évaluation de l'importance modulaire avec les NSI ; (iv) évaluation via des données synthétiques et validation via des données du monde réel tout en évaluant les forces et les faiblesses des stratégies envisagées orientées vers les bords et vers les modules. Cet article aborde le manque de documentation en développant une mesure de l'importance des ISN qui permet de décider quels individus bénéficieraient d'une analyse de réseau spécifique à l'individu.

L'article est organisé de la manière suivante. Nous divisons la section "Résultats" en trois sous-sections : deux études de simulation approfondies avec différentes hypothèses de distribution et une application de données sur le microbiome. Les hyperparamètres sont autorisés à varier selon une grille de choix. La section "Discussion" présente les principales idées et suggère de nouvelles questions de recherche. Dans la section "Méthodes", nous décrivons les données et les méthodologies. De plus amples détails sont présentés en tant que matériel supplémentaire. Un glossaire de terminologie est fourni dans le tableau supplémentaire S1.

Les performances des méthodes de détection des valeurs aberrantes proposées sont évaluées et comparées sur des données synthétiques et réelles. Notre cas d'utilisation réel est une étude du microbiome humain. Les données synthétiques reflètent deux scénarios : un avec l'expression des gènes et un avec des profils microbiens disponibles pour une population d'individus. Ces deux scénarios impliquent différentes distributions sous-jacentes pour générer les données, avec des expressions géniques supposées être normalement distribuées et pour les données microbiennes respectant la nature compositionnelle des données. Dans les données synthétiques, les individus aberrants et non aberrants sont échantillonnés à partir de deux distributions différentes, chacune utilisant des valeurs de paramètre différentes, c'est-à-dire une matrice de variance/covariance différente, quantifiant les associations entre les variables ; ainsi, la vérité fondamentale, c'est-à-dire si un individu est une valeur aberrante (1) ou non (0), est connue. Sur le jeu de données d'analyse simulé (dimension : \(N \times k\), avec N individus et k variables), nous avons calculé la corrélation de Pearson pour créer le réseau basé sur la population (dimension \(k \times k\)). Sur le réseau basé sur la population, nous avons calculé l'ISN pour chaque individu. Lesdits ISN constituent l'entrée des méthodes de détection de valeurs aberrantes proposées, les poids de bord spécifiques à l'individu étant l'ensemble de caractéristiques. Les différentes étapes sont illustrées à la Fig. S1. Ainsi, pour chaque individu, sa vérité terrain est confrontée au score aberrant classé calculé par chaque méthode. Le score de valeur aberrante (OS) pour un certain individu est le degré auquel une certaine méthode classe l'individu comme une valeur aberrante. La comparaison de l'efficacité des différentes méthodes est effectuée dans différentes conditions expérimentales et en utilisant une grille donnée de valeurs d'hyperparamètres. En tant qu'étude de cas dans le monde réel, nous avons considéré une partie de la cohorte LucKi28 avec des microbiomes infantiles collectés au fil du temps. L'exploration de méthodes pour identifier des modules significatifs dans un réseau est un vaste domaine qui dépasse la portée de cet article. Les méthodes proposées sont indépendantes de l'algorithme de détection de module choisi. Pour l'étude de cas réelle, nous avons utilisé l'algorithme SPINGLASS29 pour identifier les modules.

Les méthodes évaluées et comparées dans cet article appartiennent à l'un des groupes suivants : (i) nouvelles propositions, (ii) adaptations de méthodes existantes, et (iii) méthodes de la littérature scientifique. Parmi les méthodes de la littérature scientifique, seul le SSN21 a été précédemment rapporté dans le domaine des ISN. Étant donné que Liu21 introduit une méthode d'évaluation de l'importance et une technique de construction de réseau, toutes deux généralement appelées SSN, nous les appellerons respectivement SSN-m et SSN-n. Par ailleurs, selon leur logique, les méthodes sont regroupées dans les familles suivantes ; (i) omettre un, (ii) distance de Cook, (iii) Spoutlier, et (iv) kNN et OPTICS. La famille leave-one-out (LOO) exploite l'impact de la suppression d'un individu à la fois de l'ensemble de données d'analyse ; il comprend; (i) LOO-ISN, (ii) MultiLOO-ISN, et (iii) SSN-m. La famille de distance de Cook est une collection d'agrégations de distance de Cook modulaires, y compris nos propositions appelées ; Cook's med, Cook's max et Cook's mean, qui diffèrent par la fonction d'agrégation adoptée, c'est-à-dire respectivement médiane, maximum et moyenne. Une procédure itérative calcule les distances de Cook. L'algorithme considère une arête comme cible et prédit sa valeur (poids d'arête) via toutes les autres arêtes appartenant au module donné. La famille Spoutlier trouve son origine dans les travaux de Sugiyama30 et emploie une référence fixe fixée aux plus proches voisins. Nous appelons l'implémentation originale Spoutlier-l. Les adaptations des méthodes de Spoutlier sont appelées OTS et s'articulent autour de mesures de distance alternatives, de calculs d'ensembles de référence et d'assemblage. OTS euclidien et OTS cosinus utilisent respectivement la distance euclidienne et la dissemblance cosinus, et tous deux utilisent un ensemble de référence modifié par rapport à Spoutlier-l. MOTS euc et mOTS cosinus sont un ensemble sur OTS euclidien et OTS cosinus, respectivement. Enfin, mOTS glob utilise à la fois l'OTS euclidien et l'OTS cosinus comme prédicteurs de base.

A notre connaissance, les méthodes appartenant à la famille kNN31 et OPTICS32 n'ont jamais été appliquées dans le domaine des ISN. Pour chaque méthode, nous avons exploré plusieurs valeurs d'hyperparamètres. Dans la famille kNN, kNN 5,\(\sqrt{N}\) avec les paramètres \(k_{min}\) et \(k_{max}\) mis à 5 et \(\sqrt{N}\) réalise les meilleures performances de simulation, et il est donc appelé kNN. Une description détaillée de chaque méthode et paramètres de paramètres peut être trouvée dans la section des méthodes, ainsi qu'un tableau S2 complet contenant les caractéristiques de chaque acronyme dans la section Supplémentaire. Les méthodes susmentionnées sont appliquées aux ISN-L, mais les mêmes expériences numériques ont été réalisées sur le SSN-n à des fins de comparaison. Les résultats de l'application des méthodes SSN-n sont identifiés par le suffixe -n.

Enfin, des expériences numériques basées sur des données synthétiques ont été évaluées en comparant le score aberrant calculé OS à la vérité terrain GT, et donc en construisant une courbe ROC. L'aire sous la courbe AUC est utilisée comme mesure de performance.

Ce schéma de simulation vise à imiter les réseaux de co-expression de gènes. Plus de détails sur les caractéristiques des réseaux de co-expression de gènes sont fournis dans le tableau supplémentaire S1. Nous avons formé une grille expérimentale en générant des données synthétiques pour différentes valeurs des paramètres suivants ; la taille de l'échantillon N, la taille du module k, le nombre de valeurs aberrantes M et la distribution de probabilité qui génère des valeurs aberrantes (plus de détails dans la section "Données synthétiques" des "Méthodes"). Chaque entrée (ligne) de la grille expérimentale est appelée un paramètre composé de 200 exécutions. Chaque exécution génère un ensemble de données dont les lignes sont associées à des individus et dont les colonnes sont associées à des variables (nœuds). De plus, chaque ligne est associée à une variable binaire, la vérité terrain, qui indique si un individu est une valeur aberrante ou non.

Le jeu de données est utilisé pour calculer le réseau basé sur la population (dimension \(k\times k\)), son élément de base étant l'association entre les nœuds \(v_i\) et \(v_j\). Ledit réseau basé sur la population caractérise les associations (dans notre travail, la corrélation de Pearson) entre les variables et définit la matrice d'adjacence. À partir du réseau basé sur la population, un réseau individuel (ISNs-L ou SSN-n21) est calculé pour être l'entrée d'analyse en aval. L'ensemble de poids de bord spécifiques à un individu dans un module constitue l'ensemble de caractéristiques des méthodes de détection des valeurs aberrantes.

Une réalisation est définie comme le résultat de l'application d'une méthode à un décor ; pour chaque réalisation, l'OS est calculé pour chaque réseau spécifique à l'individu, quantifiant le support pour que l'individu soit une valeur aberrante. Par conséquent, ces valeurs de score peuvent être classées pour trouver les individus les plus susceptibles d'être des valeurs aberrantes. Ensuite, pour chaque méthode et pour chaque paramètre, nous résumons les résultats des 200 exécutions correspondantes avec l'AUC médiane en raison de sa robustesse aux valeurs extrêmes. En tant que résumé grossier, nous calculons la moyenne de tous les paramètres, en calculant les valeurs moyennes et médianes de l'AUC pour chaque méthode. Ces scores sont rapportés dans le tableau 1.

Cook's med atteint la meilleure valeur d'AUC médiane (0,920), tandis que le cosinus mOTS atteint la meilleure valeur d'AUC moyenne (0,866). Les méthodes OPTICS ne sont pas efficaces, atteignant des valeurs de performance à peine meilleures qu'une estimation aléatoire. Enfin, ni kNN ni mOTS euc n'atteignent une valeur AUC agrégée supérieure à 0,7, tandis que toutes les méthodes de non-participation (MultiLOO-ISN, LOO-ISN, SSN-m) atteignent des valeurs AUC agrégées inférieures à 0,64. Comme expliqué en détail dans la section méthode, toutes les méthodes ne s'appliquent pas à tous les paramètres, de sorte que la comparaison est incomplète. Pour plus de clarté, seules les meilleures méthodes pour chaque famille, en termes d'AUC, sont rapportées dans le tableau 1. Un tableau S3 complet est disponible dans le supplément.

Cette section compare différentes méthodes en termes de performances obtenues lors du regroupement des données synthétiques échantillonnées par taille d'échantillon N = \(\{100,500,1000,2000\}\). En comparant les différentes implémentations de Spoutlier en un seul coup (c'est-à-dire la méthode appliquée une fois, pas d'ensemble), le cosinus OTS fonctionne trop mieux que l'euclidien OTS. Comme le soulignent les Fig. 1a, b, les cosinus OTS et mOTS atteignent une valeur AUC comprise entre 0,75 et 0,90. Les homologues euclidiens atteignent une valeur AUC inférieure à 0,65. Dans le même temps, aucune différence n'est détectée entre l'approche Spoutlier-l de la littérature et l'approche euclidienne OTS personnalisée : le calcul de l'ensemble de référence introduit ne fonctionne ni mieux ni moins bien que celui de la littérature. Les implémentations d'ensemble proposées obtiennent de meilleurs résultats que leurs homologues à un seul coup. Considérer la médiane des prédictions OTS sur toutes les répétitions est très efficace. Le cosinus mOTS est la meilleure méthode de Spoutlier, atteignant une valeur AUC supérieure à 0,8 pour chaque valeur de N.

Données synthétiques : distribuées normalement. Valeurs AUC de diverses méthodes. (a) les méthodes de Spoutlier à un seul coup sont comparées. Le cosinus OTS domine uniformément sur l'euclidien OTS canonique. (b) les méthodes d'ensemble sont comparées et le cosinus mOTS est le meilleur pour toutes les valeurs de la taille d'échantillon N. (c) les méthodes produisant une valeur de p sont comparées et MultiLOO-ISN surpasse les homologues. (d) les méthodes restantes sont comparées, la méthode de Cook dominant systématiquement pour toutes les valeurs de la taille d'échantillon N. Dans le panneau inférieur, les méthodes sélectionnées sont comparées. e) la comparaison comprend tous les paramètres : le cosinus mOTS et les méthodes de Cook (à la fois Cook's med et Cook's max) dominent systématiquement leurs homologues. f) la comparaison est limitée aux paramètres à un seul front (\(k=2\)) : aucune méthode n'atteint une valeur AUC supérieure à 0,7.

Les méthodes produisant des valeurs p, c'est-à-dire LOO-ISN, MultiLOO-ISN et SSN-m, représentent une facette pertinente de l'étude actuelle, fournissant un seuil clair pour détecter les valeurs aberrantes. Une comparaison entre ces méthodes est illustrée à la Fig. 1c et montre que MultiLOO-ISN surpasse LOO-ISN pour toutes les valeurs de la taille d'échantillon N. \)) la comparaison est possible, donc seuls ces cas sont représentés. kNN et OPTICS n'atteignent jamais AUC\(> 0,7\) (Fig. 1d). De plus, les meilleures méthodes pour chaque famille sont présentées ensemble pour avoir un aperçu de leurs performances sous différentes valeurs de taille d'échantillon, Fig. 1e. La distance de Cook et le cosinus mOTS se démarquent, atteignant des valeurs AUC supérieures à 0,8 pour toutes les valeurs de taille N. Ces méthodes dominent leurs homologues correspondants de plus de 0,2 pour chaque paramètre. Aucune méthode n'atteint une valeur de performance acceptable, c'est-à-dire AUC \ (> 0,7 \), pour les réglages à un seul bord (Fig. 1f), soulignant ainsi la nécessité d'évaluations modulaires. Enfin, nous remarquons une association légèrement positive entre l'AUC et la taille d'échantillon N.

En configuration modulaire (\(k>2\)), les méthodes de distances de Cook adaptées, c'est-à-dire Cook's med et Cook's max, atteignent les meilleures valeurs de performance. Ils sont suivis de près par la méthode du cosinus mOTS. En regroupant les données synthétiques par taille de module \(k= \{2,3,5,7,9,11,17 \}\), une relation positive entre la taille k du module et la performance AUC émerge en (m)OTS cosinus (Fig. 2a, b) et les méthodes des distances de Cook (Fig. 2d, e). D'autres méthodes (Fig. 2c) ne montrent pas d'association avec la taille k du module. Surtout, aucune méthode n'atteint une valeur de performance satisfaisante dans le cadre de l'analyse à un seul bord : lorsque k = 2, chaque méthode atteint une valeur AUC inférieure à 0,6. Seul le caractère informatif limité d'une arête ressort de ces résultats. D'autres informations remarquables proviennent de la comparaison des méthodes de Spoutlier (Fig. 2a, b). mOTS euclidien est majoré de 0,7, tandis que mOTS cosinus atteint une valeur AUC supérieure à 0,9 pour les grandes tailles de module k. L'AUC de mOTS glob est positivement associée à la taille du module k et, grossièrement, environ 0,05 pire que le cosinus mOTS. Les performances de mOTS glob, bien que sous-optimales, suggèrent l'intérêt de combiner à la fois un point de vue arithmétique et géométrique. Le scénario est une copie conforme du paramètre monocoup : le cosinus OTS est positivement associé à la taille k du module, et les résultats sont supérieurs de plus de 0,2 à la contrepartie euclidienne OTS pour les valeurs élevées de k.

Données synthétiques : distribuées normalement. AUC médiane sur l'axe y et taille du module k sur l'axe x. (a) les méthodes de Spoutlier à un seul coup sont comparées. Le cosinus OTS domine uniformément son homologue euclidien (OTS euclidien) pour \(k>2\). (b) les méthodes d'ensemble de la famille Spoutlier sont comparées, et le cosinus mOTS est le meilleur pour \(k>2\). (c) les méthodes produisant des valeurs de p sont comparées et MultiLOO-ISN obtient les meilleures performances pour \(k\ge 5\). (d) les méthodes restantes sont comparées, la médecine de Cook dominant systématiquement toutes les autres lorsque \(k>2\). dans le panneau inférieur, les méthodes sélectionnées sont comparées entre elles. (e) la comparaison inclut tous les paramètres : les méthodes OTS basées sur le cosinus et la distance de Cook dominent systématiquement leurs homologues lorsque \(k>2\). Aucune méthode n'obtient des performances satisfaisantes avec les paramètres \(k=2\).

La figure S2 montre que le nombre de valeurs aberrantes n'affecte pas le comportement de l'AUC par rapport à la taille du module k. Lors de la modification du nombre de valeurs aberrantes M = \(\{1, 5, 10\}\), le classement relatif des méthodes semble stable. De plus, la pente entre la performance AUC et la taille k du module ne change pas. La performance, c'est-à-dire l'AUC médiane sur tous les runs, obtenue par les meilleures méthodes, est négativement associée au nombre de valeurs aberrantes M : lorsque plus d'individus sont aberrants, la performance diminue. De plus, aucune interaction n'apparaît entre le nombre de valeurs aberrantes M et la taille k du module. Les méthodes des distances de Cook, c'est-à-dire Cook's max et Cook's med, dominent les autres méthodes quel que soit le nombre de valeurs aberrantes M. Ces méthodes présentent également une robustesse pour le nombre de valeurs aberrantes M, en obtenant une valeur de performance stable dans tous les contextes, avec une référence spécifique à ceux cas où la taille k du module est grande.

Ce schéma de simulation vise à imiter les réseaux de cooccurrence microbienne, décrits en détail dans le tableau supplémentaire S1. Dans cette section, nous présentons et discutons les performances obtenues par les méthodes sur un schéma de simulation microbienne. Un sous-ensemble de la grille utilisée pour simuler des données normalement distribuées est combiné avec une grille explicitement conçue pour les simulations de composition, augmentant ainsi la charge de calcul. En détail, les paramètres supplémentaires sont (i) l'hétérogénéité des données, (ii) le multiplicateur du facteur de multiplication (Mult) pour différencier l'ensemble de variables (nœud) de chaque individu entre les valeurs aberrantes (également appelées cas) et les valeurs non aberrantes (témoins), et (iii ) le rapport des taxons gonflés au total. Par conséquent, nous développons une implémentation parallèle où plusieurs instances du même paramètre de simulation, avec différents démarrages aléatoires, ont été effectuées. Le plan expérimental global compte 150 exécutions pour chaque réglage inclus dans la grille des paramètres augmentés (au total, 972 réglages).

Ensuite, en suivant la même procédure que dans la section précédente, nous créons les réseaux ISNs-L et SSN-n pour l'analyse en aval. Pour chaque réalisation, la valeur AUC correspondante est calculée et moyennée sur les 150 exécutions pour obtenir la valeur AUC médiane obtenue par chaque méthode.

Nous identifions le niveau d'hétérogénéité des données et le facteur de multiplication comme principaux moteurs de performance. Par conséquent, nous calculons la moyenne de tous les paramètres regroupés par le principal moteur de performance, c'est-à-dire l'hétérogénéité des données et le facteur multiplicateur, en calculant les valeurs moyennes et médianes de l'AUC pour chaque méthode. Le tableau 2 rapporte les valeurs moyennes et médianes de l'ASC des méthodes sélectionnées sous différents paramètres d'hétérogénéité des données et de facteurs multiplicateurs. Nous renvoyons le lecteur intéressé au Supplément pour une analyse approfondie.

Les performances obtenues par diverses méthodes sont positivement corrélées à la fois à l'hétérogénéité des données et au facteur multiplicateur. Nous obtenons les meilleures valeurs d'AUC lorsque Mult = 2 et l'hétérogénéité des données = élevée (tableau 3). Les méthodes kNN et LOO-ISN sont régulièrement parmi les méthodes les plus performantes pour tous les paramètres. Les méthodes OTS euclidiennes, c'est-à-dire à la fois OTS et mOTS euclidiennes, ainsi que les méthodes de distance de Cook, sont compétitives. De plus, aucune méthode n'atteint une AUC \(>0.51\) dans les paramètres où Mult = 1.1. Dans ce scénario, l'écart entre les cas et les témoins est faible.

Nous mettons en évidence les principales différences entre les méthodes considérées en nous concentrant sur les contextes à forte hétérogénéité et à fort multiplicateur, c'est-à-dire une forte différenciation entre les taxons chez les cas et les témoins. kNN atteint les meilleures valeurs d'ASC moyenne (0,801) et médiane (0,803). Parmi les meilleurs, atteignant à la fois des valeurs AUC moyennes et médianes supérieures à 0,77, nous trouvons LOO-ISN, Spoutlier-L, Cook's max, OTS euclidien et mOTS euc. Les méthodes basées sur la similarité cosinus OTS atteignent de faibles valeurs AUC et ne semblent pas adaptées pour accomplir la tâche. De plus, nous observons que différents choix de paramètres de méthodes, à l'exception de la mesure de distance dans le cas de l'OTS, ont peu ou pas d'influence sur la performance finale.

Ici, nous analysons les performances lors du regroupement des simulations par taille de module k = \(\{2,5,11,17\}\). Compte tenu de l'hétérogénéité considérable des données analysées, l'accent est mis sur l'agrégation des itérations dans les contextes où \(Mult=2\) et le niveau d'hétérogénéité sont élevés. Notamment, LOO-ISN fonctionne mieux que MultiLOO-ISN pour \(k<5\), tandis que OTS euclidien fonctionne mieux que ses homologues basés sur le cosinus, contrairement aux résultats des simulations sous l'hypothèse de normalité. Une légère association positive entre la taille k du module et les performances (AUC médiane) est observée sur la figure 3, soulignant ainsi la nature de modularité interne de ces estimations.

Contrairement à ce que nous avons observé pour les simulations sous l'hypothèse de normalité, l'évaluation est informative pour les paramètres à un seul bord : l'ASC médiane est d'environ 0,75 pour la plupart des méthodes considérées. D'autres résultats notables proviennent de la comparaison des méthodes de Spoutlier. En effet, les méthodes basées sur les euclidiennes surpassent de manière significative leurs homologues basées sur le cosinus (Fig. 3a). Il n'y a qu'un léger avantage, moins de 0,05 en moyenne, dans l'ASC de l'utilisation d'une méthode basée sur l'ensemble par rapport à un seul coup (Fig. 3b). MultiLOO-ISN, LOO-ISN et SSN-m ont des performances similaires pour les paramètres à bord unique (Fig. 3c). Les approches de distance de Cook sont parmi les plus performantes lorsque la taille du module k est élevée ; ils sont sous-optimaux pour les petites tailles de module (Fig. 3d, e).

Données synthétiques : compositionnelles. AUC médiane sur l'axe y et taille du module k sur l'axe x. (a) les méthodes de Spoutlier à un seul coup sont comparées. Les méthodes euclidiennes, à la fois euclidiennes OTS et Spoutlier-l, dominent le cosinus OTS. (b) Les méthodes d'ensemble de Spoutlier sont comparées, et mOTS euc apparaît uniformément comme la meilleure implémentation de Spoutlier lorsque \(k>2\). (c) les méthodes produisant la valeur p sont comparées et MultiLOO-ISN atteint les meilleures performances en commençant par les paramètres modulaires, c'est-à-dire \(k>5\). Sur (d), les méthodes restantes sont comparées, avec kNN et le max de Cook dominant systématiquement leurs homologues. Dans le panneau inférieur, les méthodes sélectionnées sont comparées entre elles. Sur (e), la comparaison inclut tous les paramètres : KNN, mOTS euc, LOO-ISN, Cook's max et Cook's med obtiennent constamment de bonnes performances.

Comme le montre la figure S3, le comportement de l'AUC par rapport à la taille du module k n'est pas affecté par le nombre de valeurs aberrantes M. Le classement relatif des méthodes semble être cohérent par rapport au nombre de valeurs aberrantes M, avec une plage M = \ (\{1,5,10 \}\). L'augmentation du nombre de valeurs aberrantes M détériore les performances de toutes les méthodes : aucune méthode ne montre une grande robustesse aux valeurs aberrantes. Enfin, l'hétérogénéité des performances, c'est-à-dire l'écart entre les meilleures et les pires méthodes, augmente légèrement lorsque le nombre de valeurs aberrantes M augmente.

Les réseaux de cooccurrence de microbiomes sont connus pour être riches en informations sur les conditions de santé des individus4,33. Par conséquent, nous utilisons les données de la cohorte LucKi Gut, une étude en cours qui surveille le développement du microbiote intestinal tout au long de la petite enfance et de la petite enfance, pour valider les résultats.

Le LucKi Gut est intégré dans la plus grande étude de cohorte de naissance de Lucki28 ; il se concentre principalement sur les nouveau-nés, collectant des taxons microbiens à différents stades après l'accouchement et calculant ainsi les associations microbiennes. Le microbiome au mois 6 a été identifié comme une étape importante dans la maturation de la communauté microbienne ; elle constitue donc l'objet de l'analyse. Nous nous concentrons sur les 81 nouveau-nés ayant des profils microbiens disponibles au mois 6 et, grâce à des méthodes d'évaluation de l'importance, nous essayons de découvrir quels sont les modules spécifiques individuels périphériques, le cas échéant. Nous appliquons un filtrage basé sur la prévalence des taxons microbiens (\(< 10\%\)). Tous les échantillons ont une profondeur de séquençage substantielle (lit : médiane = 57 248, IQR = 29 504 ; minimum = 11 123) ; nous n'appliquons donc aucun filtre sur le nombre de lectures. Les données résultantes sont composées de 81 nouveau-nés pour 126 microbes. Nous avons transformé les données en rapport logarithmique centré (CLR) et calculé le réseau de corrélation de Pearson sur l'ensemble de données, c'est-à-dire le réseau basé sur la population.

Les modules considérés sont les clusters obtenus en appliquant l'algorithme de détection de communauté SPINGLASS29 sur le réseau basé sur la population. Nous n'appliquons aucune binarisation ou transformation basée sur la distribution. Nous avons défini la température d'arrêt du paramètre sur 0,001 pour augmenter la granularité de l'algorithme, tandis que les autres paramètres sont définis sur leurs valeurs par défaut.

Nous appliquons SPINGLASS29 à la cohorte Lucki Gut, et nous trouvons 4 modules microbiotiques de dimension {45, 41, 35, 5} taxons. Les modules 1 à 3 ont une taille (nombre de taxons) hors de la couverture des simulations (\(>17\)). De plus, les modules 1 à 3 consistent en plus d'arêtes, telles que calculées selon 27, que d'individus 81, et donc toutes les méthodes basées sur la distance de Cook ne peuvent pas être utilisées. Le module 4, composé de 5 nœuds, est suffisant pour valider notre approche, étant le plus proche des dimensions du module dans les simulations.

Par conséquent, nous appliquons des techniques exceptionnelles à partir de données synthétiques sur les ISNs-L du module 4. En particulier, kNN 5 \(\sqrt{N}\), mOTS euc, MultiLOO-ISN, LOO-ISN, cosinus max mOTS de Cook, et mOTS cosinus -n. MultiLOO-ISN et LOO-ISN trouvent respectivement 7 et 4 valeurs aberrantes significatives, visualisées sur les Fig. 4a, b. Nous créons un classement d'ensemble des individus par comparaison de classement. Une étude comparative de Li et al.34 nous oriente vers la moyenne géométrique des classements, parmi les meilleures métriques en termes de performance et de généralisabilité. Il existe une forte concordance entre les scores aberrants des différentes méthodes, avec une corrélation en valeur absolue supérieure à 0,4 (Fig. 4d). Nous nous concentrons sur le top-6 comme pour la moyenne géométrique (Fig. 4c). Nous choisissons 6 car il se situe entre 7 et 4 valeurs aberrantes trouvées avec MultiLOO-ISN et LOO-ISN.

Données réelles : la LucKi Gut Cohort. Courbe de filtrage des ISN utilisant les valeurs de Fiedler comme métrique. L'écart type est également représenté. Dans le module 4, (a) les courbes de filtration de 4 valeurs aberrantes (vertes) identifiées avec LOO-ISN sont représentées par rapport au reste (rouge, identifié comme "moyenne"). En (b), la ligne verte est la courbe de filtration de 7 valeurs aberrantes identifiées avec MultiLOO-ISN. En (c), les 6 valeurs aberrantes les plus élevées, comme pour la moyenne géométrique du classement, sont représentées (vert) par rapport au reste (rouge). En (d), la concordance, en termes de corrélation de SG, est calculée entre les méthodes spécifiées. En (e), les 6 premières valeurs aberrantes sur l'ensemble du réseau sont représentées (en vert) par rapport au reste (en rouge). (f) Seuls 2 échantillons parmi les 6 premiers de l'ensemble du réseau sont également aberrants dans le module 4.

Une validation supplémentaire provient des courbes de filtrage de graphes35, c'est-à-dire des représentations de graphes qui peuvent être appliquées à des ensembles de données étiquetées et non étiquetées à l'aide des attributs pertinents et des informations structurelles du graphe. Un seuil croissant est considéré et les fronts dont le poids est inférieur à la valeur de seuil actuelle sont mis à zéro. Une métrique résumant le sous-graphe est ensuite calculée pour différentes valeurs de seuil. Plus en détail, nous utilisons la connectivité algébrique des graphes, dite valeur de Fiedler36 ; il mesure à quel point un graphe est connecté37. De plus amples informations peuvent être trouvées dans le Supplément.

Sur les figures 4a à c, nous décrivons les groupes de valeurs aberrantes par rapport à la moyenne de tous les autres ISN-L de la population, montrant ainsi une forte séparation dans le module donné. Par conséquent, corroborant les résultats de LOO-ISN, MultiLOO-ISN et des 6 principales valeurs aberrantes.

Nous comparons les 6 principales valeurs aberrantes avec des phénotypes externes tels que le mode d'accouchement (vaginal ou césarienne) ou le type de régime (allaitement, régime mixte, aliments solides). Nous trouvons un enrichissement pour le régime alimentaire solide et légèrement pour l'accouchement par césarienne (tests hypergéométriques, respectivement, valeur p de 0,032 et 0,079, avec correction FDR).

Ensuite, nous considérons, à l'extrême, l'ensemble du réseau comme un module (Fig. 4e). Nous parcourons le pipeline sur l'ensemble du réseau (c'est-à-dire sur les ISN de 81 individus et 126 taxons) et classons les 6 premières valeurs aberrantes (comme auparavant). Nous notons que le maximum de Cook n'a pas été calculé car il y a plus d'arêtes que d'échantillons. Nous trouvons un enrichissement significatif pour les aliments solides dans le top 6 (6 sur 6, valeur p corrigée du FDR hypergéométrique de 0,032). Aucun niveau de type de diffusion n'est enrichi. De plus, 5 des 6 meilleurs échantillons se trouvent dans le cluster 2 de l'analyse par cluster DMM de Gallazzo et al.38 sur les mêmes données. Cependant, nous ne trouvons aucun enrichissement (valeur de p hypergéométrique corrigée par FDR \(= 0,35\)). Nous ne trouvons aucune séparation dans les courbes de filtration en prenant les 6 premières valeurs aberrantes du module 4 sur l'ensemble du réseau. Sur les 6 principales valeurs aberrantes du module 4, seules 2 sont également aberrantes sur l'ensemble du réseau (Fig. 4f).

Les réseaux individuels sont devenus de plus en plus populaires. En général, un ISN fait référence à un réseau qui peut être attribué à un seul individu. En tant que telle, une approche systémique peut être adoptée pour comparer les individus entre eux et pour évaluer l'hétérogénéité des groupes de patients ou de population, ce qui peut éclairer les pratiques de médecine de précision. Ici, nous nous concentrons sur les ISN avec des arêtes qui ont des poids spécifiques à l'individu. Souvent, ces ISN ont également des valeurs de nœud spécifiques à l'individu, car celles-ci sont directement utilisées dans le calcul des arêtes. Cependant, on peut penser à des exemples pour lesquels les valeurs des nœuds ne seraient pas directement disponibles. Par exemple, des réseaux d'épistasie statistique au niveau des gènes spécifiques à l'individu pourraient capturer la contribution épistatique de l'individu à un modèle d'épistasie de population, au sens de Kuijjer et al.13. Cependant, les valeurs de nœuds de gènes spécifiques à un individu ne seraient disponibles que lorsque la dérivation du modèle d'épistasie de la population implique le calcul de résumés de gènes. Une fois les ISN dérivés, ils peuvent être interrogés pour les sous-réseaux hautement connectés. Lorsque les ISN sont moléculaires, ils peuvent être suivis par des analyses d'enrichissement pour identifier les voies significatives spécifiques à l'individu. Cependant, avant de se lancer dans de telles analyses, nous examinons d'abord si l'individu doit être traité comme un échantillon unique ou si l'on peut supposer que l'individu suit les tendances de la population. Ainsi, les conclusions des modèles de population peuvent être extrapolées à l'individu sans plus tarder. Actuellement, les ISN sont souvent soumis à des flux de travail d'interprétation, que les bords ou les modules soient ou non significativement différents de ce que l'on peut attendre d'une population. Par conséquent, ce travail explore plusieurs méthodes de détection des valeurs aberrantes, en formule de nouvelles et les traduit dans le contexte des ISN, allant au-delà des évaluations d'importance à un seul bord.

Les ISN, avec des arêtes spécifiques à l'individu, peuvent être calculés de différentes manières. Nous avons limité notre attention à la méthode d'interpolation linéaire de Kuijjer car la méthode de construction peut être appliquée à n'importe quelle définition d'une arête. Cela ne signifie pas que toute définition de poids de bord donnera des performances optimales. Kuijjer a rapporté13 (et Jahagirdan39 également) que des résultats plus bruyants sont obtenus avec des poids de bord à information mutuelle. En outre, chaque paramètre d'application nécessitera une évaluation approfondie de la pertinence de la définition ISN adoptée sur les données de simulation qui capturent la véritable nature des données d'application cible. Lorsqu'elles sont appliquées à la corrélation de Pearson comme mesure d'association entre deux nœuds, les arêtes spécifiques à l'individu de Kuijjer sont assez similaires à celles définies par Liu et al.21 (SSN-n). Ce dernier a développé un score Z (SSN-m) à partir des bords ISN pour évaluer la signification. Cependant, l'erreur de type I pour SSN-n était légèrement élevée. Pour le raisonnement derrière cette observation, nous renvoyons à Jahagirdan et al.27.

Cet article présente plusieurs méthodes de différents domaines de recherche pour évaluer quel individu est significativement différent de la population, où la population est décrite via un réseau d'entités biologiques en interaction (par exemple, les gènes et leurs expressions ou les microbes et leurs abondances). Comme les entités ne fonctionnent souvent pas de manière isolée, nous avons étendu les méthodes actuelles de détection des valeurs aberrantes des échantillons pour qu'elles fonctionnent sous réserve d'ensembles de mesures interconnectés pour chaque individu. Ainsi, dans les simulations, on ne cherche pas des modules mais une condition sur un sous-réseau donné, puis on vérifie si les individus sont des outliers conditionnels sur le sous-réseau. Les individus périphériques, non pas sur l'ensemble des réseaux mais sur un sous-ensemble, identifiés avec nos techniques peuvent pointer vers des sous-réseaux intéressants d'ISN sur lesquels zoomer pour des analyses de suivi. Réalisant que les nœuds, qu'il s'agisse de gènes, de taxons ou de toute autre caractéristique biologique, n'agissent pas isolément (mais en communautés), nous avons élargi l'analyse actuelle de l'état de l'art vers un paradigme de signification modulaire.

Dans notre travail, nous avons clairement spécifié les hypothèses nulles et alternatives que nous testons avec chaque méthode de détection des valeurs aberrantes considérée. Nos données simulées imitent deux scénarios réels : (1) réseaux de transcriptome (co-expression génique) pour la distribution normale et (2) réseaux de cooccurrence microbienne pour la distribution compositionnelle. La motivation pour sélectionner ces deux contextes d'application est la suivante. La co-expression de gènes est le domaine dans lequel les ISN ont été principalement appliqués. De plus, comme le soulignent Conesa et al.,40, les nombres de lectures sont mieux modélisés avec une distribution discrète (comme Poisson ou binôme négatif41,42). Cependant, dès que les données ont été normalisées, y compris la TMM et la suppression des lots, elles peuvent perdre leur nature discrète et s'apparenter davantage à une distribution continue. De plus, la distribution gaussienne offre de nombreux avantages, comme le fait d'être une représentation naturelle d'une moyenne pour des échantillons de grande taille, avec une moyenne et une déviance complètement indépendantes. L'hypothèse de normalité pourrait être un problème, son utilisation est donc limitée uniquement aux scénarios où l'hypothèse est vérifiée. Pour ces champs particuliers, une technique de génération de données personnalisée est nécessaire. Le microbiome a un impact considérable sur la santé43. De plus, l'intestin humain est un écosystème complexe où les microbes interagissent entre eux et avec l'hôte33. Il a été démontré que les interactions microbiennes présentent potentiellement de riches informations sur divers problèmes de santé33.

À l'ère de la science des données et de la médecine de précision, la détection robuste des valeurs aberrantes est d'un grand intérêt44,45. Déterminer si une observation est peu probable, compte tenu des données disponibles ou d'une référence, dépend clairement du contexte. Dans notre contexte d'ISN, qui sont des réseaux, il est plus logique de rechercher des valeurs aberrantes de manière multivariée, où une valeur aberrante multivariée est classiquement définie comme une observation incompatible avec une structure de corrélation donnée. La complexité de la détection des valeurs aberrantes multivariées est exacerbée dans le contexte des ISN, qui peuvent être constitués de milliers d'arêtes. Pour réduire la complexité et, puisque les modules sont souvent les unités de base vers l'interprétation et la traduction, nous limitons la dimensionnalité de la détection des valeurs aberrantes multivariées à celles dictées par les modules. Par conséquent, nous nous concentrons sur des simulations à faible dimension, pour reproduire la dimensionnalité d'un module réel. Nos méthodes de détection de valeurs aberrantes sélectionnées sont représentatives des familles kNN, OPTICS, Spoutlier, distance de Cook et SSN-m, et ne sont pas supervisées : kNN et Spoutlier ont des hypothèses différentes mais sont toutes deux des techniques basées sur la distance, tandis que OPTICS est basée sur la densité. Le SSN-m (comme LOO-ISN et MultiLOO-ISN) est basé sur l'omission d'un, tandis que la distance de Cook est à la fois statistique et basée sur la distance. Les méthodes initialement développées pour la détection univariée (multivariée) des valeurs aberrantes sont respectivement SSN-m (kNN, OPTICS, Spoutlier, distance de Cook). Bien qu'il n'y ait pas de meilleure performance globale dans tous les scénarios, quelques observations peuvent être faites : la dimension accrue du module est associée à de meilleures performances. De plus, nous avons observé une légère amélioration des performances en augmentant la taille de l'échantillon. La distance de distribution (sur les données de composition) entre les valeurs aberrantes et non aberrantes est un moteur de performance essentiel. En particulier les paramètres Mult et Data heterogeneity. Les paramètres où Mult = 1,1 sont extrêmement difficiles pour toutes les méthodes, la valeur de l'ASC médiane allant de 0,5 à 0,51. Dans ce scénario, l'écart entre les cas et les témoins est faible et n'est détecté par aucune méthode. Par conséquent, il est crucial d'analyser davantage les caractéristiques de l'ensemble de données cible avant d'appliquer des méthodes de détection des valeurs aberrantes de manière myope.

Nous pouvons formuler des interprétations et des idées basées sur les performances des méthodes. Nous montrons que les méthodes proposées, c'est-à-dire les méthodes de distances de Cook appliquées sur les arêtes, Cook's max et Cook's med, sont le premier choix. Les méthodes de Cook sont parmi les meilleures avec le cosinus mOTS dans le cadre de l'hypothèse de normalité des données synthétiques, avec kNN et LOO-ISN dans le cadre de la composition des données synthétiques. Au contraire, OPTICS affiche constamment de mauvais résultats. Une explication possible d'un tel résultat est que la construction de Cook peut donner l'importance appropriée à la vision écosystémique caractérisant la médecine de réseau. En effet, lors du calcul de l'influence/extrême d'une arête, il considère l'ensemble de la structure modulaire. De plus, nous pouvons en déduire que nous pouvons aborder les bords dans les données transcriptomiques d'un point de vue géométrique. Cela ressort clairement des meilleures performances du cosinus mOTS par rapport à la contrepartie euclidienne. L'approche algébrique - mOTS euclidienne - a de meilleurs résultats sur les simulations de microbiome.

Des alternatives aux méthodes de détection des valeurs aberrantes proposées existent. Les méthodes de réduction de dimensionnalité (non linéaires) telles que PCA (non linéaire), (noyau) MDS ou SNE, sur les entrées de cellule de la matrice d'association diagonale supérieure liée à chaque ISN, peuvent également être utilisées pour identifier les valeurs aberrantes, quoique principalement par inspection visuelle uniquement. Certaines approches de clustering sont robustes aux valeurs aberrantes dans le sens où elles identifieront les valeurs aberrantes en tant que cluster séparé : un développement récent prometteur dans le contexte des ISN est netANOVA, une nouvelle approche de clustering de réseau hiérarchique avec une évaluation de l'importance basée sur un arbre46.

Les données réelles confirment nos conclusions. L'étude sur les données du microbiote de la cohorte LucKi Gut a validé les méthodes de détection des valeurs aberrantes proposées pour trouver des valeurs aberrantes locales, c'est-à-dire des observations qui ne sont pas des valeurs aberrantes globales mais ne deviennent des valeurs aberrantes que lorsqu'elles appartiennent à des communautés de caractéristiques spécifiques. Ceci est crucial dans les microbiomes, compte tenu de leur structure hétérogène substantielle et de l'importance de leur variation47. De plus, en faisant un ensemble des techniques les plus performantes sur le plus petit module (c'est-à-dire le module 4), nous pouvons séparer le type de régime et le mode d'administration. En particulier, le mode d'administration des césariennes est connu pour être un moteur principal du microbiote dans les premiers stades de la vie48,49,50,51. Ceci met en évidence la capacité à capter un signal des procédés précités. De plus, les 6 individus les plus aberrants du module 4 ne sont pas aberrants dans l'ensemble du réseau Fig. 4e. Par conséquent, la détection des valeurs aberrantes locales apporte des informations complémentaires.

La plupart des méthodes présentées sont des classificateurs, c'est-à-dire qu'elles donnent un classement de la valeur aberrante, tandis que les méthodes sans un (\(LOO-ISN\) et \(MultiLOO-ISN\)) sont des classificateurs appropriés, c'est-à-dire qu'elles fournissent un p -valeur. Même si les valeurs de p facilitent l'identification d'un échantillon exceptionnel, certains de nos plus performants, c'est-à-dire kNN, la distance de Cook et Spoutlier, n'ont pas fourni de telles valeurs de p. Pour les classeurs, plus de travail est nécessaire pour traduire une liste classée en décisions sur les individus qui sont réellement des valeurs aberrantes. La charge de calcul varie selon les méthodes. MultiLOO-ISN et LOO-ISN sont les techniques monocoup les plus intenses en termes de calcul. Les approches euclidiennes OTS sont beaucoup plus lentes que leur homologue OPTICS, ce qui souligne la nécessité d'une optimisation supplémentaire. Les méthodes de distance de Cook sont rapides, mais leur charge augmente rapidement avec l'augmentation de la taille du module. La comparaison complète sur un module de taille \(k=5\) et avec \(N = 1000\) échantillons est présentée dans le Supplémentaire.

La sélection des données de référence a fait l'objet de discussions dans les articles originaux présentant les NSI. Par exemple, dans Kuijjer13, ils ont étudié la prise de sous-ensembles d'un ensemble de référence initial comme arrière-plan et ont montré que cela avait peu d'impact sur le réseau spécifique d'un individu construit à partir de cet arrière-plan, en particulier lorsque la taille des échantillons augmentait (Kuijjer et al.,13). De même, Liu et al.21 ont également évalué l'impact de la modification des ensembles de référence, concluant que la méthode est robuste aux ensembles de référence plus petits. Dans Jaha et al.27, ils ont évalué différents choix d'ensembles de référence. En particulier, l'impact de la création d'un ensemble de référence de cas uniquement, de contrôle uniquement ou groupé. Ils ont conclu que l'utilisation d'ensembles de référence de contrôle uniquement dans la prédiction est avantageuse, mais réduit la capacité de généralisation. Cependant, dans ce travail, le choix des données de référence était simple. Il est impossible d'utiliser des ensembles de référence de cas ou de contrôle uniquement dans des contextes non supervisés. Il pourrait y avoir des problèmes découlant de la variabilité de l'ensemble de référence. Si les échantillons de l'ensemble de référence sont un mélange de différentes populations, les résultats seraient impactés. L'impact du choix des données de référence sur le statut aberrant ou l'analyse en aval des NSI significatifs fait l'objet de travaux futurs. Un projet de suivi vise à trouver des ensembles de référence homogènes en tant que groupes d'échantillons partageant le même modèle d'association.

Enfin, une fois les individus intéressants identifiés, ceux-ci peuvent être analysés dans un contexte de médecine de précision pour identifier des biomarqueurs ou fournir des informations mécanistes. Conformément à Jahagirdan39, nous observons que la précision de classe est déjà très élevée lors de l'utilisation des valeurs de bord (non publié). Nous conjecturons qu'il est avantageux de s'éloigner le plus d'une représentation moyenne des arêtes (c'est-à-dire la corrélation de Pearson). Dans ce travail, nous allons au-delà de la simple utilisation des valeurs de bord comme prédicteurs, en appliquant des méthodes plus sophistiquées. Des méthodes plus avancées peuvent également être employées, telles que l'apprentissage de la représentation graphique.

En conclusion, les ISN sont des constructions prometteuses. Leur adoption dans des contextes de médecine de précision s'appuiera sur des avancées pour interpréter les NSI, mais aussi sur des évaluations pour identifier les individus aberrants ou exceptionnels. Ces personnes pourraient bénéficier de diagnostics ou d'interventions basés sur leur NSI plutôt que sur des modèles de population génériques. Ce travail montre la valeur ajoutée des méthodes de détection des valeurs aberrantes basées sur les modules par rapport aux approches à un seul bord couramment utilisées.

Pour valider les méthodes proposées, nous avons utilisé les données de la cohorte LucKi Gut, une étude en cours qui surveille le développement du microbiote intestinal tout au long de la petite enfance et de la petite enfance. LucKi Gut fait partie de la plus grande étude de cohorte de naissance de Lucki28. L'ADN métagénomique a été extrait avec un protocole personnalisé impliquant une lyse mécanique et enzymatique52. La principale étape d'analyse des échantillons était le profilage microbien par séquençage de nouvelle génération de la région du gène hypervariable 16S rRNA V3–V4. Ensuite, un pipeline basé sur DADA2 a été utilisé pour identifier les variantes de séquence d'amplicon. Le résultat de ces étapes est une collection de 1144 abondances de taxons. Nous nous sommes principalement concentrés sur les associations microbiennes sur les nouveau-nés recueillies au mois 6 après l'accouchement, identifiées comme une étape importante dans la maturation de la communauté microbienne, limitant davantage l'attention aux 81 nouveau-nés avec un profil microbien disponible.

La sélection d'individus et de taxons informatifs et le filtrage du bruit aléatoire ont été réalisés avec un filtre d'abondance et de prévalence. Seuls les variants de séquence d'amplicon avec une prévalence supérieure à 10 % ont survécu au filtrage. Le filtrage a été reconnu comme une étape cruciale du microbiome53, et nous avons retenu 10 % conformément à53. Seuls 126 (sur 1144) taxons sont restés. Sur les données préfiltrées, nous avons appliqué une transformation de rapport logarithmique centré (CLR).

En général, un réseau peut être représenté par un graphe \(G=(V,E)\) où V désigne un ensemble fini non vide de p nœuds et E est un sous-ensemble de \(V\fois V\) contenant paires de nœuds connectés \(e_{ij}:=(v_i,v_j)\) appelés arêtes. Dans les réseaux pondérés, chaque arête \(e_{ij}\) est associée à un poids \(w_{ij} \in R\). Voir également le tableau supplémentaire S1. Pour les réseaux spécifiques à un individu, nous supposons que pour chaque individu q \((q=1,\ldots , N)\) un réseau unique \(G_q=(V_q,E_q)\) existe, où N est le nombre d'individus au sein de la cohorte d'étude. De plus, un sous-réseau/module \(G^\prime =\left( V^\prime ,E^\prime \right)\) est un réseau tel que \(V^\prime \subseteq V\) et \(E ^\prime \subseteq E\).

Les réseaux spécifiques à l'individu considérés dans l'étude ont été dérivés via la LIONESS de Kuijjer13 (voir également Fig. S4), donnant lieu à des réseaux non orientés, pondérés et spécifiques à l'individu pour chaque individu de l'étude, avec de fortes propriétés, performances et adaptabilité dans différents contextes13 ,27,54,55. Par conséquent, dans notre travail, un poids d'arête spécifique à l'individu \(w_{ij}^q\) pour l'individu q est calculé avec la formule suivante :

où \(w_{ij}^\alpha\) est le poids de bord dans le réseau basé sur la population et \(w_{ij}^{\alpha -q}\) est le poids de bord dans le réseau calculé avec la même mesure d'association (corrélation de Pearson dans ce travail) mais sans la q-ième observation c'est-à-dire le réseau LOO.

Cette formule exploite la différence entre deux réseaux, dans lesquels la seule variation est l'absence-présence de l'individu q, pour tirer des conclusions sur l'impact sur la topologie du réseau de la suppression ou de l'ajout d'un individu. De plus, l'inspiration de la formule réside dans la volonté de construire des ISN tels que leur moyenne soit proche du réseau construit en regroupant tous les individus de l'étude. L'article original démontre effectivement que, avec \({N\rightarrow \infty}\) et sous l'hypothèse que le rapport des poids est constant entre les réseaux basés sur la population et LOO, la linéarité est valable et le réseau basé sur la population peut être vu comme une moyenne pondérée des NSI (voir 13, Suppl. 5.2).

Le réseau SSN-n est défini par la différence centrale \(w_{ij}^\alpha -w_{ij}^{\alpha -q}\). L'article original21 basait l'ensemble de référence sur les échantillons de contrôle, mais il a ensuite été étendu27 à l'ensemble de la population. Puisque nous sommes dans un cadre non supervisé, nous avons utilisé cette dernière définition.

SSN-m, LOO-ISN et MultiLOO-ISN donnent une valeur p, tandis que OPTICS, kNN, Spoutlier sont des classeurs, c'est-à-dire qu'ils donnent un score aberrant. Les caractéristiques des méthodes sont mises en évidence dans le tableau 4.

Il est essentiel de clarifier l'hypothèse nulle sous-jacente pour trouver les valeurs aberrantes - les individus qui s'écartent de la structure d'association basée sur la population. Plus précisément, pour une arête donnée \(e_{ij}\) :

Cette formulation montre le lien direct entre \(w_{ij}^q\) et \(w_{ij}^{\alpha }\). Si \(H_0\) n'est pas rejeté, alors les conclusions basées sur la population sont directement applicables au q-ième individu. Si le test tombe dans la zone de rejet bilatérale, l'individu est considéré comme une valeur aberrante pour le bord/module cible. La formulation ci-dessus Eq. (2) est directement généralisable à un module en étendant l'égalité pour chaque arête à l'intérieur d'un module. Nous prenons Md comme module et définissons \(Me = \{w_{ij} :i,j \in Md\}\) comme l'ensemble des poids des arêtes appartenant à un module. L'hypothèse nulle est donc :

Tout écart important par rapport à l'Eq. (2) (Eq. 3 dans les évaluations modulaires) fait partie de \(H_A\). Selon la méthode, la formulation de \(H_0\) varie : (1) pour SSN-m, \(H_0\) fait référence à l'égalité des arêtes calculée sur le réseau de référence et un réseau avec l'ajout de l'échantillon q. Dans la sous-section sur SSN-m, nous montrons l'équivalence de ce test avec l'Eq. (2). (2) Pour LOO-ISN et MultiLOO-ISN, l'hypothèse nulle est Eq. (2) (Eq. (3) si on teste la significativité du module). Vous trouverez plus de détails dans les sous-sections LOO-ISN et MultiLOO-ISN. Les autres méthodes (3), kNN, OPTICS, Spoutlier, distance de Cook, ne suivent pas un cadre de test d'hypothèse classique, c'est-à-dire qu'elles ne donnent pas de valeurs p ou de signification statistique. Ils attribuent un score, le score aberrant, pour le bord/module de chaque individu. Le classement du score de valeur aberrante fournit une quantification du degré auquel le bord/module d'un individu est aberrant.

Si \(H_0\) n'est pas rejeté, aucune réclamation ne peut être faite sur le bord/module testé comme aberrant. Par conséquent, le bord/module cible n'a pas besoin d'être caractérisé individuellement, et l'agrégation basée sur la population est la meilleure estimation. Notamment, à partir de l'Eq. (1), on trouve que l'Eq. (2), est une condition nécessaire et suffisante pour :

Par conséquent, le test entre les poids de bord basés sur la population et spécifiques à l'individu équivaut à un test entre les réseaux basés sur la population et LOO selon la formule ISNs-L. Un aperçu graphique des stratégies d'évaluation de l'importance se trouve à la Fig. 5.

Trois scénarios de test différents pour évaluer si un individu est extrême par rapport à une population représentée par un réseau pondéré entièrement connecté (c'est-à-dire que tous les nœuds sont connectés). (a) L'exemple montre un réseau de 3 nœuds (3 arêtes). Il pourrait s'agir d'un module en tant que sous-réseau du réseau mondial plus large basé sur la population. En (b), la distance entre le réseau LOO et le réseau basé sur la population est calculée. Notez que lorsque le réseau basé sur la population est déduit de N individus, le réseau LOO est basé sur \(N-1\) individus. SSN-m utilise ce scénario de test, mais est limité au cas bivarié (2 nœuds et 1 arête de connexion). En (c), nous pouvons voir les trois types de réseaux considérés : basés sur la population, LOO et ISN, mis en évidence pour l'individu q. De manière similaire à (b), en (d) la distance entre le réseau LOO et le réseau basé sur la population est confrontée, cette fois, à la distance entre le réseau basé sur la population et le LOO attendu sous l'hypothèse nulle de l'Eq. (4) \(E(w_{ij}^{\alpha }) = E(w_{ij}^{\alpha -q}\)). Les réseaux nuls sont générés en échantillonnant des caractéristiques définies pour N individus à partir de la matrice de variance/covariance estimée, donc sans différence entre les individus, ce qui ne provoque aucune différence dans les poids des bords du réseau. Ce scénario de test s'applique aux implémentations MultiLOO-ISN et LOO-ISN, où nous fournissons des informations supplémentaires sur l'échantillonnage de réseau nul. La figure S5 montre le pipeline en détail. Enfin, pour (e), le réseau spécifique de l'individu cible est comparé aux NSI des autres individus de la population, ce qui conduit à un score aberrant pour l'individu cible. Les pondérations de bord de réseau sont utilisées dans les algorithmes de détection des valeurs aberrantes kNN, distance de Cook, OPTICS et OTS.

SSN-m21 calcule une valeur p comme une transformation de la différence entre \(w^{\alpha }\) et \(w^{\alpha +q}\). \(w^{\alpha +q}\) est un poids de bord calculé en ajoutant un individu avant de calculer la corrélation. SSN-m a été développé dans un paradigme de réseau différentiel et lié à celui-ci. Le réseau a été calculé en ajoutant une observation aq, et non en la supprimant comme dans LIONESS. Cet écart n'est pas gênant, car les deux situations (ajout ou suppression d'une observation) peuvent être conciliées en changeant de point de vue. En définissant \(PCC_n\) comme la corrélation de Pearson de deux nœuds calculée sur n observations, nous définissons \(\Delta PCC_n = PCC_{n+1}-PCC_{n}\) comme la différence de corrélation lors de l'ajout de l'observation n+1 . Il est simple de concilier avec la situation LIONESS, en fixant (n + 1) = N, puis en supprimant une observation donnant n = N-1. Le calcul de la valeur p est basé sur un score z, calculé comme suit :

L'hypothèse sous-jacente est la normalité de la distribution.

LOO-ISN appartient à la famille des non-participants. Dans le cadre à une seule arête (\(k=2\)), avec les nœuds \(v_i\) et \(v_j\), et sous l'hypothèse nulle \(H_0\) donnée par l'Eq. (2), la méthode LOO-ISN effectue les étapes suivantes ; (1) Utilisez l'ensemble de données d'analyse (\(N \times k\) matrice contenant les valeurs des nœuds) pour calculer le réseau basé sur la population, avec un seul élément \(w_{ij}^{\alpha }\), c'est-à-dire avec corrélation de Pearson dans notre travail ; (2) Générer des données simulées, c'est-à-dire N observations à partir d'une distribution normale bivariée avec une moyenne nulle (\(\mu = 0\)), une variance unitaire et une corrélation égale à \(w_{ij}^{\alpha }\) ; (3) Utilisez des données simulées pour calculer \(\hat{w}_{ij}^{\alpha }\); (4) Retirez un échantillon (ind) des données de simulation et calculez la corrélation \(\hat{e}_{ij}^{\alpha - ind}\) sur les données restantes ; (5) Calculez la différence entre \(\hat{w}_{ij}^{\alpha }\) et \(\hat{w}_{ij}^{\alpha - ind}\) ; 6) Supprimez le q individuel de l'ensemble de données d'analyse et calculez \(w_{ij}^{\alpha -q}\), pour chaque \(q=1, \cdots , N\); 7) Comparer \(w_{ij}^{\alpha } - {w_{ij}^{\alpha - q}}\), calculé sur le jeu de données d'analyse, à \(\hat{w}_{ij} ^{\alpha } - \hat{w}_{ij}^{\alpha - ind}\), calculé sur des données de simulation, pour obtenir une p-value associée. Comme mentionné précédemment dans l'Eq. (4), cela équivaut à tester entre les bords basés sur la population et individuels ou entre les bords basés sur la population et LOO.

Les étapes ci-dessus, décrivant le pipeline pour l'évaluation de la signification d'une seule arête (\(k=2\)), se généralisent directement dans le cas où un module (\(k>2\)) est considéré. Cependant, dans un tel cas, nous utilisons une distribution normale multivariée pour générer les données de simulation à l'étape 2), où la dimension de la distribution normale est égale à la taille k du module. Les simulations normales multivariées doivent imiter la structure du réseau sous l'hypothèse nulle \(H_0\). Par conséquent, nous générons N échantillons, égaux à la taille de l'échantillon empirique, avec une normale où nous définissons la matrice de variance/covariance sur la matrice de contiguïté A, avec des entrées les poids de bord pondérés \(w_{ij}^{\alpha }\) et le vecteur moyen (\(k \times 1\)) à 0. Par conséquent, les coefficients de corrélation sont estimés sur l'ensemble de données d'analyse, c'est-à-dire les poids d'arête \(w_{ij}^\alpha\) pour chaque arête entre deux nœuds \(v_i\) et \(v_j\) à l'intérieur du module. Nous renvoyons le lecteur à la Fig. S5 pour une représentation visuelle.

Alors que le calcul de la valeur p à l'étape (7) est simple dans un cadre à un seul bord, plusieurs options sont possibles dans le cadre modulaire. LOO-ISN additionne les différences entre les dimensions pour créer une distribution univariée et une zone de rejet. Par conséquent, il teste l'ensemble du module.

Nous prenons Md comme module et définissons \(Me = \{w_{ij}^q:i,j \in Md\}\) comme l'ensemble des poids des arêtes appartenant à un module. Pour chaque individu q, nous avons défini la statistique de test \(T_q\) comme :

\(T_q\) est ensuite comparée à la distribution empirique de la somme de la différence sous l'hypothèse nulle \(H_0\), c'est-à-dire \(\hat{T}=\sum _{(i,j)\in Me}{ (\hat{w}_{ij}^\alpha -\hat{w}_{ij}^{\alpha -q})}\), et une valeur p est obtenue. Pour LOO-ISN et MultiLOO-ISN, le pseudocode expliquant les différentes étapes en détail est disponible dans le Supplémentaire.

MultiLOO-ISN suit le pipeline leave-one-out décrit précédemment, ne différant que par l'agrégation des fonctionnalités. MultiLOO-ISN considère le module comme un point dans un espace de grande dimension et construit une zone de rejet multidimensionnelle avec autant de dimensions que d'arêtes dans le module. Mais, pour calculer la statistique de test, nous devons réduire la zone de rejet à un scalaire. Par conséquent, nous appliquons un écart maximal (non linéaire) pour créer une distribution univariée sous \(H_0\).

Avec Me l'ensemble des poids d'arête appartenant à un module, pour chaque individu q, nous définissons la statistique de test \(T_q\) comme :

Nous comparons ensuite \(T_q\) à la distribution empirique du max de la différence sous \(H_0\), c'est-à-dire \(\hat{T}=\max _{(i,j)\in Md}{(\hat {w}_{ij}^\alpha -\ \hat{w}_{ij}^{\alpha -ind})}\) et récupérez une p-value.

SSN-m, MultiLOO-ISN et LOO-ISN sont fortement liés : tous supposent la normalité et prennent en compte, comme paramètres, la taille de l'échantillon et la corrélation empirique basée sur la population \(w_{ij}^\alpha\). Ils montrent également des résultats similaires sur les paramètres à bord unique.

Spoutlier30 est une implémentation rapide basée sur la logique kNN. Il définit un ensemble de référence puis calcule les distances entre cet ensemble et la q observation cible. Ensuite, il extrait le minimum de ces distances, car les auteurs ont déclaré qu'une valeur aberrante est une observation éloignée de toutes les observations de l'ensemble de données. Le minimum de ces distances est le système d'exploitation. Le seul paramètre est le nombre d'individus dans l'ensemble de référence s. Nous fixons \(s = 20\) conformément aux suggestions de l'article original. Dans ce travail, nous prenons les poids de bord spécifiques à un individu dans un module comme nos caractéristiques.

Quantifier l'OS pour une partie d'observation de l'ensemble de référence de taille s est un cas particulier. Si aucune mesure n'est prise, ces individus auraient une distance de 0, non indicative de leur degré aberrant. Dans l'article original, les auteurs ont surmonté cette limitation en calculant la distance non nulle la plus faible à partir de l'ensemble de référence s. Cette approche néglige les similitudes dans le cadre avec des tailles d'échantillon élevées et des caractéristiques discrètes ; Dans ces contextes, il est plausible d'avoir plusieurs observations avec le même profil, à savoir une répétition. Si une réplique de l'observation cible se trouve dans l'ensemble de référence, nous ne devons pas rejeter une distance de 0. Par conséquent, nous avons introduit une modification mineure du code original. Nous avons échantillonné \(s+1\) observations, et lorsque la cible est dans l'ensemble de référence, nous utilisons les autres s observations. Sinon, nous échantillonnons au hasard s parmi \(s+1\) observations.

La mesure de la distance est cruciale pour la performance finale. Nous proposons la similarité cosinus (OTS cosinus) pour considérer la nature géométrique des données. La dissimilitude est calculée par son complément. Le calcul géométrique en cosinus nécessite un espace de caractéristiques multidimensionnel et est irréalisable dans des paramètres à bord unique. Considérant le paradigme bien connu de la sagesse des foules56, nous proposons une technique d'ensemble. Nous itérons l'algorithme (mOTS cosinus, mOTS euc) plusieurs fois (10) pour avoir des performances plus stables. De plus, nous proposons également une combinaison de similarité euclidienne et cosinus (mOTS glob). Ainsi, les facettes arithmétiques et géométriques sont combinées. Nous avons implémenté chaque méthode sur les réseaux SSN-n et ISNs-L.

La distance de Cook est basée sur la logique du module. Un module est un ensemble de variables fortement associées (éventuellement gènes/taxons). Par conséquent, la distance de Cook exploite les informations partagées entre les composants du module, qu'il s'agisse d'arêtes ou de nœuds. L'adaptation proposée de la distance de Cook prédit un poids de bord via un modèle linéaire en utilisant tous les autres poids de bord dans le module comme prédicteurs pour chaque itération. Étant donné un module de taille k, avec \(k=\) nombre de nœuds, le nombre de combinaisons par paires (ordre non considéré) entre les arêtes est \(C = \frac{k(k-1)}{2}\ ). En particulier, pour \(q= \{1,\ldots ,N\}\) et \(c=\{1,\ldots ,C\}\), nous utilisons un modèle linéaire (LM) pour prédire une arête poids \(w_{ij}^q\) avec chaque autre poids d'arête \(w_{lm}^q\) dans le module, \((l,m) \in \{1, 2, \dots , k \ }^2\) avec \((l,m) \ne (i,j)\) et \(l < m\) :

Ensuite, nous appliquons la distance de Cook pour identifier quelle observation est aberrante (résidu élevé) et avec un effet de levier substantiel, c'est-à-dire ayant une forte influence sur l'estimation de \(w_{ij}^q\). La distance de Cook pour une observation q et le poids d'arête \(w_{ij}\) (connectant les nœuds \(v_i\) et \(v_j\)) comme cible, est définie comme suit :

où \(\hat{w}_{ij}^{p(q)}\) est la valeur de réponse ajustée obtenue en excluant l'individu q, avec

Le calcul de la distance de Cook est répété pour (1) chaque observation, donnant \(D_{ij}^1\), \(\ldots\), \(D_{ij}^N\) et 2) pour chaque arête dans le module comme cible, donnant \(D_{12}^q\), \(\ldots\), \(D_{k-1k}^q\). Enfin, pour chaque observation q, on agrège tous les \(D^q\)={\(D_{ij}^q\) avec \(j=2,\ldots , k\), \(i=1, \ldots , k-1, i

Nous nous concentrons sur la mise en œuvre d'Angiulli31. Cette extension a été développée pour la détection des valeurs aberrantes. Comme caractéristiques, nous utilisons tous les poids des arêtes à l'intérieur d'un module Me. Pour plus de détails, nous nous référons à l'article original et à la section méthode du Supplément.

OPTICS-OF (simplement appelé OPTICS dans le document) est une amélioration de DBSCAN développée pour la détection des valeurs aberrantes. Les poids de bord à l'intérieur d'un module cible sont les fonctionnalités. OPTICS donne un score aberrant. Pour plus de détails, nous nous référons à l'article original et à la section Méthode supplémentaire.

Nous avons utilisé des données synthétiques pour évaluer et comparer les méthodes ci-dessus lorsque la vérité terrain est disponible. Nous avons créé plusieurs paramètres hétérogènes avec des hypothèses, des schémas de génération et des paramètres variables. Notamment, nous avons utilisé deux schémas de génération différents : (i) la distribution normale et (ii) le schéma compositionnel. Dans les deux schémas, nous simulons le jeu de données d'analyse (individus sur les lignes, caractéristiques sur les colonnes, dimension \(N\x k\)) via différents paramètres de distributions pour les contrôles \(NM\) et les cas M, c'est-à-dire , les valeurs aberrantes.

Les paramètres communs aux deux schémas sont (1) la taille d'échantillon N, variant entre 100 et 2000 ; (2) nombre d'individus aberrants M, variant entre 1 et 10 (en pourcentage de \(0,05\%\) à \(10\%\)) ; (3) la taille du module k quantifiant le nombre de nœuds dans le module, variant de 2, un scénario à une seule arête, à 17. Dans les schémas de simulation normalement distribués et compositionnels, nous définissons une variable aléatoire multivariée [normale multivariée pour (i )], et nous échantillonnons l'ensemble de variables de chaque individu (c'est-à-dire les nœuds) à partir de cette distribution multivariée. Les individus sont échantillonnés indépendamment et tous les individus témoins sont échantillonnés à partir d'une distribution avec les mêmes paramètres. Ensuite, la corrélation de Pearson est appliquée à l'ensemble de données d'analyse échantillonné, pour construire le réseau basé sur la population (entrée unique \(w_{ij}^{\alpha }\)). Ce réseau basé sur la population est l'entrée pour le calcul de l'ISN. De plus, nous avons utilisé deux distributions de génération de valeurs aberrantes différentes pour le schéma de distribution normale, en précisant si les valeurs aberrantes appartiennent à la même distribution ou si chacune provient de sa propre distribution. Les paramètres spécifiques du schéma microbien contrôlent : (1) le degré d'hétérogénéité des données (variant d'uniforme à élevé) ; (2) le facteur multiplicateur entre différents microbes (de 1,1 à 2) ; et (3) le pourcentage de paramètres gonflés différenciant les cas et les témoins (de \(10\%\) à \(40\%\)).

Nous avons exploré plusieurs réglages de paramètres, en particulier, sur l'hypothèse de distribution des données. Une combinaison de paramètres est stockée dans une grille. Pour chaque entrée (ligne) de la grille du paramètre créée dans les étapes de simulation de données, nous avons effectué plusieurs exécutions (200 en distribution normale et 150 en composition). Par conséquent, l'ensemble de données d'analyse (individus sur les lignes, entités/nœuds sur les colonnes) et la vérité terrain sont générés. Pour chacune de ces exécutions, nous avons appliqué toutes les méthodes présentées et chacune d'elles donne le vecteur OS, de dimension N. Ce vecteur contient les M cas et \(NM\) contrôles et représente les scores aberrants pour les individus. Le label GT de chaque individu fait référence à l'appartenance au groupe : appartenance au cas (outliers) ou au groupe témoin. Pour chaque individu \(i=1,\cdots , N:\)

Les données composant le jeu de données d'analyse sont échantillonnées par une normale multivariée. Le vecteur moyen est fixé à zéro, tandis que la structure variance-covariance diffère entre M cas et \(NM\) témoins. Le paramètre k, la taille du module, contrôle la dimensionnalité de la normale. Les cas échantillonnés et les observations témoins sont réunis et constituent le jeu de données d'analyse, c'est-à-dire mimant l'expression des gènes dans notre population. La vérité terrain des individus GT, est utilisée pour évaluer les performances des méthodes proposées. Un pipeline visuel est illustré à la Fig. S6.

Les paramètres de base sont N, M, k, génération de valeurs aberrantes, et nous nous référons au tableau 5 pour plus de détails. Nous avons généré des données en faisant varier plusieurs paramètres, puis en les développant dans une grille où chaque ligne est une combinaison unique des paramètres de base et appelée paramètre. Au total, nous avons généré 168 réglages différents via les combinaisons de paramètres. Les étapes de génération et d'évaluation, c'est-à-dire l'application des méthodes proposées aux données, ont été répétées Rep = 200 fois pour réduire le bruit et garantir des résultats robustes et reproductibles.

Nous avons prolongé les travaux de Harrison57 en proposant un modèle basé sur Dirichlet pour simuler des données microbiennes. Tout d'abord, nous avons échantillonné à partir de : (1) Une distribution de Pareto avec seuil = 1 et \(\alpha\) = 0,7 ; ou (2) Une distribution de Pareto avec seuil = 1 et \(\alpha\) = 4 ; ou (3) Une distribution uniforme avec une valeur = 1. La distribution de Pareto décrit des données avec peu de caractéristiques abondantes et de nombreuses caractéristiques rares. Chaque nœud a une masse de probabilité égale dans la distribution uniforme. Par conséquent, nous avons généré le vecteur D, avec un scalaire à une entrée \(d_i\) avec \(i=1,\cdots ,p\). D est un résultat intermédiaire utilisé comme paramètre de concentration (\(\alpha\)) dans l'échantillonnage de Dirichlet. Avoir un vecteur de \(d_i\) nous indique la masse de probabilité à attribuer à chaque nœud, chaque taxon.

Ensuite, les observations des cas et des contrôles sont différenciées par un multiplicateur (Mult), pour produire \({E^1}\) à partir de D, avec un scalaire à une seule entrée \(e^1_i\). Le multiplicateur gonfle la masse de probabilité des nœuds dans les cas et les plages dans \(Mult=\{1.1,\ 1.5,\ 2\}\). Le pourcentage de nœuds que nous gonflons est donné par le paramètre : \(PercIncrease=\{\ 10\%,\ 25\%,\ 40\%\}\). Comme dans le schéma de simulation de normalité, nous avons combiné les paramètres dans une grille. Après la différenciation cas-témoins, les paramètres, c'est-à-dire \({E^1}\) et D, sont normalisés à la même somme pour éviter les effets d'échelle dus à des densités différentes :

avec \(i=1,\ldots ,p\), formant ainsi le vecteur \(E*\).

Nous avons ensuite multiplié \(E*\) et D pour \(Int=3\), le paramètre d'intensité, pour accentuer la différenciation. Ensuite, pour chacun des individus témoins \(NM\), D est utilisé comme paramètre de concentration dans un échantillonnage de Dirichlet. Pour un individu q, l'échantillonnage de Dirichlet donne \(pr^q\), dimension \(p \times 1\). En combinant tous les \(pr^q\) pour les individus \(NM\), on obtient la matrice pr, de dimension \((NM) \times p\), à entrée unique \(pr_i^q\) la probabilité des taxons i dans l'individu q. Nous avons utilisé \(pr^q\) comme paramètre d'entrée en aval d'une procédure d'échantillonnage multinomial, pour l'individu q, avec un paramètre supplémentaire nombre de lectures\(=5000\). Nombre de lectures spécifie le nombre total d'objets à diviser en p cases (les nœuds) dans l'échantillonnage multinomial avec \(prob=pr^q\) vecteur de probabilités. Cette étape imite un microbiome lu sur un individu avec un nombre de lectures = 5000 et un vecteur de probabilités gonflées à zéro, compositionnelles et hétérogènes. Le résultat produit, pour l'individu q, est un vecteur d'abondances sous le paramètre de contrôle. Une procédure analogue est appliquée pour générer les M cas individuels avec le paramètre \({E^*}\) au lieu de D. Nous joignons les abondances pour les contrôles \(NM\) et les M cas dans le jeu de données d'analyse simulé. Le pipeline exhaustif peut être trouvé dans la Fig. S7.

Pour éviter les corrélations négatives parfaites biaisées, nous avons échantillonné un réseau dix fois plus grand (en termes de nombre de nœuds) que le module de la cible, \(p=10\times k\). Ensuite, nous avons appliqué une transformation de rapport logarithmique centré (CLR)58. Ce n'est qu'à la toute dernière étape que nous nous concentrons sur le module cible. Nous nous sommes assurés que ladite procédure conserve au moins une différentiation donnée par Mult dans le module k-dimensionnel. Autrement, il n'y a aucune justification théorique des différences entre les cas et les témoins.

Le tableau 5 met en évidence la grille finale des valeurs des paramètres. Au total, nous avons généré 972 réglages différents via des combinaisons de paramètres. Les étapes de génération et d'évaluation sont répétées \(Rep=150\) fois pour chaque réglage afin de réduire le bruit et de garantir des résultats robustes et reproductibles. Par rapport aux simulations de normalité, les paramètres N et k varient sur un ensemble limité. Cette limitation compense l'ajout de paramètres spécifiques au microbiome et maintient la charge de calcul sous contrôle.

Le résultat d'une méthode sur une exécution est un vecteur de score aberrant OS. Ce vecteur est ordonné par ordre décroissant et comparé au vecteur de vérité terrain GT (1 si aberrant, 0 sinon). Bien que la fixation d'un seuil et la binarisation de l'OS aideraient la tâche d'évaluation, il n'y a pas de calcul de seuil ou de valeur p connu pour la plupart des méthodes considérées. La façon naturelle d'évaluer nos résultats est de faire varier le seuil et de créer la courbe ROC correspondante. Nous avons agrégé les performances, en faisant la moyenne de tous les essais (200 normalement distribués, 150 pour microbien) pour chaque paramètre. Nous avons utilisé la médiane comme métrique d'agrégation, compte tenu de la variabilité et de l'asymétrie des performances.

Étant donné que la plupart de ces familles ont des paramètres à régler ou que différentes agrégations peuvent être utilisées, le nombre d'implémentations est énorme. Par souci de cohérence, nous avons appliqué chaque méthode, lorsque cela était possible, à la fois sur SSN-n et ISNs-L pour le choix de chaque paramètre. Dans kNN, nous avons défini 2 jeux de paramètres différents \(k_{min}\) et \(k_{max}\). 1) Premièrement, \(k_{min}\) et \(k_{max}\) sont respectivement le minimum et le maximum entre log(N) et k, avec N taille d'échantillon et k taille de module. Le réglage de ce paramètre résume à la fois les variables et l'espace des échantillons ; Alors (2), \(k_{min}\) et \(k_{max}\) sont le minimum et le maximum entre 5 (vu comme paramètre de référence pour kNN) et sqrt(N), également pris comme référence dans30 . Dans OPTICS-OF, nous fixons le paramètre n, c'est-à-dire le nombre de voisins, comme pour kNN, à 5, \(\sqrt{N}\) ou \(mean(log(n), k+1)\), pour résumer à la fois le module et la taille de l'échantillon. Le seul paramètre de Spoutlier, la dimension de l'ensemble de référence, est fixé à \(s=20\) comme trouvé empiriquement dans l'article original30. Nous avons implémenté (1) la distance euclidienne et (2) la similarité cosinus comme mesures de distance. Nous avons appliqué des techniques d'ensemble aux méthodes mOTS, en choisissant à plusieurs reprises les 20 échantillons de référence et en agrégeant les différents résultats avec la médiane. Les agrégations considérées dans les distances de Cook étaient (1) max, (2) moyenne ou (3) médiane sur toutes les arêtes d'un module. Toutes les combinaisons et approches sont décrites dans le Supplémentaire.

L'ensemble de données sous-jacent à cet article est disponible sur demande auprès du Centre eurégional du microbiome (www.microbiomecenter.eu). Les données, le code et les graphiques de simulation sont accessibles au public dans le référentiel GitHub à l'adresse https://github.com/FedericoMelograna/Sign_ISN.

Le code et les simulations sont disponibles gratuitement sur GitHub à https://github.com/FedericoMelograna/Sign_ISN. Pour plus d'informations sur l'analyse, le logiciel et la visualisation, nous nous référons à la section d'analyse et de visualisation du logiciel dans les méthodes supplémentaires.

Ozturk, K., Dow, M., Carlin, D., Bejar, R. & Carter, H. Le potentiel émergent de l'analyse de réseau pour informer la médecine de précision contre le cancer. J. Mol. Biol. 430, 2875–2899. https://doi.org/10.1016/j.jmb.2018.06.016 (2018).

Article CAS PubMed PubMed Central Google Scholar

Barabási, A., Gulbahce, N. & Loscalzo, J. Médecine en réseau : Une approche basée sur le réseau des maladies humaines. Nat. Révérend Genet. 12, 56–68. https://doi.org/10.1038/nrg2918 (2010).

Article CAS Google Scholar

Sonawane, A., Weiss, S., Glass, K. & Sharma, A. La médecine en réseau à l'ère des mégadonnées biomédicales. Devant. Genet. 10, 294. https://doi.org/10.3389/FGENE.2019.00294 (2019).

Article CAS PubMed PubMed Central Google Scholar

Chen, L. et al. Les réseaux de co-abondance microbienne intestinale montrent une spécificité dans les maladies inflammatoires de l'intestin et l'obésité. Nat. Commun. 11, 1–12. https://doi.org/10.1038/s41467-020-17840-y (2020).

Article CAS Google Scholar

Urbanowicz, RJ, Meeker, M., La Cava, W., Olson, RS & Moore, JH Sélection de fonctionnalités basées sur le relief : introduction et examen. J. Biomed. Informer. 85, 189–203. https://doi.org/10.1016/j.jbi.2018.07.014 (2018).

Article PubMed PubMed Central Google Scholar

Duroux, D., Climente-González, H., Azencott, C.-A. & Van Steen, K. Détection d'épistasie guidée par réseau interprétable. GigaSciencehttps://doi.org/10.1093/gigascience/giab093 (2022).

Article PubMed PubMed Central Google Scholar

Menche, J. et al. Intégrer des profils d'expression génique personnalisés dans des pools de gènes associés à des maladies prédictives. Système NPJ. Biol. Appl.https://doi.org/10.1038/s41540-017-0009-0 (2017).

Article PubMed PubMed Central Google Scholar

Kosorok, M. & Laber, E. Médecine de précision. Annu. Tour. État. Appl. 6, 263-286. https://doi.org/10.1146/annurev-statistics-030718-105251 (2019).

Article MathSciNet PubMed PubMed Central Google Scholar

Bzdok, D., Varoquaux, G., Prédiction, SE & Association, N. Ouvrir la voie à la médecine de précision. JAMA Psychiatry 78(2), 127–128. https://doi.org/10.1001/jamapsychiatry.2020.2549 (2021).

Article PubMed Google Scholar

Moore, J. & Williams, S. Traverser la fracture conceptuelle entre épistasie biologique et statistique : biologie des systèmes et synthèse plus moderne. Bioessais 27(6), 637–46. https://doi.org/10.1002/bies.20236 (2005).

Article CAS PubMed Google Scholar

Liu, W. et al. Découverte efficace de marqueurs de réseau spécifiques à un échantillon gaussien et validation de l'analyse d'enrichissement de médicaments. Calcul. Biol. Chem.https://doi.org/10.1016/j.compbiolchem.2019.107139 (2019).

Article ADS PubMed Google Scholar

Huang, Y., Chang, X., Zhang, Y., Chen, L. et Liu, X. Caractérisation de la maladie à l'aide d'un réseau spécifique à l'échantillon basé sur une corrélation partielle. Bref. Bioinform.https://doi.org/10.1093/bib/bbaa062 (2020).

Article PubMed PubMed Central Google Scholar

Kuijjer, M., Tung, M., Yuan, G., Quackenbush, J. & Glass, K. Estimation des réseaux de régulation spécifiques à un échantillon. Sciencehttps://doi.org/10.1016/j.isci.2019.03.021 (2019).

Article Google Scholar

Dai, H., Li, L., Zeng, T. & Chen, L. Réseau spécifique aux cellules construit à partir de données de séquençage d'ARN unicellulaire. Nucleic Acids Res.https://doi.org/10.1093/nar/gkz172 (2019).

Article PubMed PubMed Central Google Scholar

Li, L., Dai, H., Fang, Z. & Chen, L. c-csn : analyse des données de séquençage d'ARN unicellulaire par réseau conditionnel spécifique aux cellules. Génome. Protéome. Bioinform.https://doi.org/10.1016/J.GPB.2020.05.005 (2021).

Article Google Scholar

Flashner-Abramson, E., Vasudevan, S., Adejumobi, I., Sonnenblick, A. & Kravchenko-Balasha, N. Décodage de l'hétérogénéité du cancer : étude des signatures de signalisation spécifiques au patient vers un traitement personnalisé du cancer. Théranostic 9, 5149–5165. https://doi.org/10.7150/thno.31657 (2019).

Article CAS PubMed PubMed Central Google Scholar

Guo, W.-F., Zhang, S.-W., Zeng, T., Akutsu, T. & Chen, L. Principes de contrôle du réseau pour l'identification de gènes pilotes personnalisés dans le cancer. Bref. Bioinformer. 21, 1641–1662. https://doi.org/10.1093/bib/bbz089 (2019).

Article CAS Google Scholar

Bian, J., Xie, M., Topaloglu, U. & Cisler, JM Un modèle probabiliste de réseau de connectivité cérébrale fonctionnelle pour découvrir de nouveaux biomarqueurs. Sommets AMIA Trad. Sci. Proc. 2013, 21 (2013).

PubMed PubMed Central Google Scholar

Doucet, G. et al. Les mesures de la théorie des graphes locaux à l'état de repos avant la chirurgie prédisent les résultats neurocognitifs après une chirurgie cérébrale dans l'épilepsie du lobe temporal. Épilepsie 56(4), 517–26. https://doi.org/10.1111/epi.12936 (2015).

Article PubMed Google Scholar

Gosak, M. et al. Science des réseaux des systèmes biologiques à différentes échelles : une revue. Phys. Life Rev.https://doi.org/10.1016/j.plrev.2017.11.003 (2018).

Article PubMed Google Scholar

Liu, X., Wang, Y., Ji, H., Aihara, K. et Chen, L. Caractérisation personnalisée des maladies à l'aide de réseaux spécifiques à l'échantillon. Nucleic Acids Res. 44, 772. https://doi.org/10.1093/nar/gkw772 (2016).

Article CAS Google Scholar

Maron, B. et al. Interactomes individualisés pour la médecine de précision basée sur le réseau dans la cardiomyopathie hypertrophique avec des implications pour d'autres pathophénotypes cliniques. Nat. Commun.https://doi.org/10.1038/s41467-021-21146-y (2021).

Article PubMed PubMed Central Google Scholar

Ha, M. et al. Modélisation personnalisée en réseau intégré de l'atlas du protéome du cancer. Sci. Rep.https://doi.org/10.1038/s41598-018-32682-x (2018).

Article PubMed PubMed Central Google Scholar

Gregorich, M. et al. Réseaux spécifiques à un sujet en tant que caractéristiques de la modélisation prédictive : un examen de la portée des méthodes. Sci. Rep.https://doi.org/10.13140/RG.2.2.24616.499 (2021).

Article Google Scholar

Elo, LL & Schwikowski, B. Analyse des mesures d'expression génique résolues dans le temps chez les individus. PLOS UN 8, 1–8. https://doi.org/10.1371/journal.pone.0082340 (2013).

Article CAS Google Scholar

Yu, X. et al. Analyse de réseau périphérique spécifique à l'individu pour la prédiction de la maladie. Nucleic Acids Res. 45, 787. https://doi.org/10.1093/nar/gkx787 (2017).

Article CAS Google Scholar

Jahagirdar, S. & Saccenti, E. Évaluation des méthodes d'inférence de réseau à échantillon unique pour la médecine systémique basée sur la métabolomique. J. Proteome Res. 20, 932–949. https://doi.org/10.1021/acs.jproteome.0c00696 (2021).

Article CAS PubMed Google Scholar

Korte-de Boer, D. et al. Étude de cohorte de naissance Lucki, justification et conception. Santé publique BMC 15, 1–7. https://doi.org/10.1186/S12889-015-2255-7 (2015).

Article Google Scholar

Tripathi, S., Moutari, S., Dehmer, M. & Emmert-Streib, F. Comparaison des algorithmes de détection de modules dans les réseaux de protéines et enquête sur la signification biologique des modules prédits. BMC Bioinform.https://doi.org/10.1186/s12859-016-0979-8 (2016).

Article Google Scholar

Sugiyama, M. & Borgwardt, K. Détection rapide des valeurs aberrantes basée sur la distance par échantillonnage. Adv. Information neuronale. Processus. Syst. 26, 1–10 (2013).

Google Scholar

Angiulli, F. & Pizzuti, C. Détection rapide des valeurs aberrantes dans les espaces de grande dimension. Dans Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2431 LNAI, 15–27, https://doi.org/10.1007/3-540-45681-3_2 (2002).

Ankerst, M., Breunig, MM, Kriegel, HP & Sander, J. Optics : Ordonner des points pour identifier la structure de regroupement. SIGMOD Rec. 28, 49–60. https://doi.org/10.1145/304181.304187 (1999).

Article Google Scholar

Faust, K. et al. Relations de cooccurrence microbienne dans le microbiome humain. Calcul PLOS. Biol. 8, 1002606. https://doi.org/10.1371/JOURNAL.PCBI.1002606 (2012).

Article Google Scholar

Li, X., Wang, X. & Xiao, G. Une étude comparative des méthodes d'agrégation des rangs pour les listes partielles et les mieux classées dans les applications génomiques. Bref. Bioinformer. 20, 178–189. https://doi.org/10.1093/bib/bbx101 (2017).

Article CAS PubMed Central Google Scholar

O'bray, L., Rieck, B. & Borgwardt, K. Courbes de filtration pour la représentation graphique ; courbes de filtration pour la représentation graphique. Bref. Bioinform.https://doi.org/10.1145/3447548.3467442 (2021).

Article PubMed Google Scholar

Fiedler, M. Connectivité algébrique des graphes. Tchèque. Mathématiques. J. 23, 298–305 (1973).

Article MathSciNet MATH Google Scholar

de Abreu, NMM Résultats anciens et nouveaux sur la connectivité algébrique des graphes. Application d'algèbre linéaire. 423, 53–73. https://doi.org/10.1016/j.laa.2006.08.017 (2007).

Article MathSciNet MATH Google Scholar

Galazzo, G. et al. Développement du microbiote et associations avec le mode de naissance, l'alimentation et les troubles atopiques dans une analyse longitudinale d'échantillons de selles, collectés de la petite enfance à la petite enfance. Gastroentérologie 158, 1584–1596. https://doi.org/10.1053/j.gastro.2020.01.024 (2020).

Article CAS PubMed Google Scholar

Jahagirdar, S. & Saccenti, E. Sur l'utilisation de la corrélation et mi comme mesure de l'association métabolite-métabolite pour l'analyse de la connectivité différentielle du réseau. Métaboliteshttps://doi.org/10.3390/metabo10040171 (2020).

Article PubMed PubMed Central Google Scholar

Conesa, A., Madrigal, P. & Tarazona, S. Une enquête sur les meilleures pratiques pour l'analyse des données rna-seq. Génome Biol. 17, 13. https://doi.org/10.1186/s13059-016-0881-8 (2016).

Article CAS PubMed PubMed Central Google Scholar

Anders, S. & Huber, W. Analyse d'expression différentielle pour les données de comptage de séquences. Génome Biol. 11, 1–12. https://doi.org/10.1186/gb-2010-11-10-r106 (2010).

Article CAS Google Scholar

Robinson, MD & Smyth, GK Tests statistiques modérés pour évaluer les différences dans l'abondance des marques. Bioinformatique 23, 2881–2887. https://doi.org/10.1093/bioinformatics/btm453 (2007).

Article CAS PubMed Google Scholar

Walker, W. L'importance d'une colonisation bactérienne initiale appropriée de l'intestin pour la santé du nouveau-né, de l'enfant et de l'adulte. Pédiat. Res.https://doi.org/10.1038/pr.2017.111 (2017).

Article ADS PubMed Google Scholar

Smiti, A. Un aperçu critique des méthodes de détection des valeurs aberrantes. Calcul. Sci. Rév. 38, 100306. https://doi.org/10.1016/j.cosrev.2020.100306 (2020).

Article MathSciNet MATH Google Scholar

Wang, H., Bah, M. & Hammad, M. Progrès dans les techniques de détection des valeurs aberrantes : une enquête. Accès IEEE 7, 107964–108000. https://doi.org/10.1109/access.2019.2932769 (2019).

Article Google Scholar

Duroux, D. & Steen, K. netanova : nouvelle technique de regroupement de graphes avec évaluation de l'importance via Anova hiérarchique. BioRxivhttps://doi.org/10.1101/2022.06.28.497741 (2022).

Article Google Scholar

Yu, X., Chen, X. & Wang, Z. Caractérisation de la dynamique personnalisée du microbiote pour la classification des maladies par analyse de réseau périphérique spécifique à l'individu. Devant. Genet.https://doi.org/10.3389/fgene.2019.00283 (2019).

Article PubMed PubMed Central Google Scholar

Reyman, M., Houten, M. & Baarle, D. Impact de la dynamique du microbiote intestinal associée au mode de livraison sur la santé au cours de la première année de vie. Nat. Commun. 10, 4997. https://doi.org/10.1038/s41467-019-13014-7 (2019).

Article ADS CAS PubMed PubMed Central Google Scholar

Dominguez-Bello, MG et al. Le mode d'accouchement façonne l'acquisition et la structure du microbiote initial dans plusieurs habitats corporels chez les nouveau-nés. Proc. Natl. Acad. Sci. États-Unis 107, 11971–11975. https://doi.org/10.1073/pnas.1002601107 (2010).

Article ADS PubMed PubMed Central Google Scholar

Sevelsted, A., Stokholm, J., Bønnelykke, K. & Bisgaard, H. Césarienne et troubles immunitaires chroniques. Pédiatrie 135, e92–e98. https://doi.org/10.1542/peds.2014-0596 (2015).

Article PubMed Google Scholar

Mueller, NT et al. Exposition prénatale aux antibiotiques, césarienne et risque d'obésité infantile. Int. J. Obès. 2005(39), 665–670. https://doi.org/10.1038/ijo.2014.180 (2015).

Article Google Scholar

Stearns, JC et al. Les profils de culture et moléculaires montrent des changements dans les communautés bactériennes des voies respiratoires supérieures qui se produisent avec l'âge. ISME J. 9, 1246-1259. https://doi.org/10.1038/ismej.2014.250 (2015).

Article PubMed PubMed Central Google Scholar

Nearing, J., Douglas, G. & Hayes, M. Les méthodes d'abondance différentielle du microbiome produisent des résultats différents sur 38 ensembles de données. Nat. Commun. 13, 342. https://doi.org/10.1038/s41467-022-28034-z (2022).

Article ADS CAS PubMed PubMed Central Google Scholar

Guo, W., Yu, X., Shi, Q., Liang, J. et Zhang, S. Évaluation des performances des méthodes de contrôle de réseau spécifiques à l'échantillon pour l'analyse de données biologiques en vrac et unicellulaires. Calcul PLOS. Biol. 17, 1008962. https://doi.org/10.1371/journal.pcbi.1008962 (2021).

Article CAS Google Scholar

Kuijjer, M., Hsieh, P. & Quackenbush, J. lionessr : inférence de réseau à échantillon unique dans r. BMC Cancer 19, 1003. https://doi.org/10.1186/s12885-019-6235-7 (2019).

Article PubMed PubMed Central Google Scholar

Surowiecki, J. La sagesse des foules (Ancre, 2005).

Google Scholar

Harrison, JG, Calder, WJ, Shastry, V. & Buerkle, CA La modélisation multinomiale Dirichlet surpasse les alternatives pour l'analyse du microbiome et d'autres données de comptage écologique. Sci. Rep.https://doi.org/10.1101/711317 (2019).

Article PubMed PubMed Central Google Scholar

Aitchison, J. L'analyse statistique des données de composition (Chapman et Hall, 1986).

Livre MATH Google Scholar

Télécharger les références

Cette étude a été intégrée au Euregional Microbiome Center (www.microbiomecenter.eu), une initiative transfrontalière sur les interactions hôte-microbiome entre l'Université de Liège, l'Université de Maastricht, le Maastricht University Medical Center+ et Uniklinik RWTH Aachen. Le financement a été reçu du programme de recherche et d'innovation Horizon 2020 de l'Union européenne dans le cadre des conventions de subvention Marie Sklodowska-Curie N° 813533 (mlfpm.eu) et N° 860895 (h2020transys.eu). Un grand merci à Diane Duroux du laboratoire BIO3 de l'Université de Liège (Belgique) pour des discussions inspirantes sur les ISN et à Alice Giampino de l'Université de Milan-Bicocca pour des discussions et des éclaircissements sur l'échantillonnage de Dirichlet.

Ces auteurs ont contribué à parts égales : Fabio Stella et Kristel Van Steen.

BIO3 - Laboratoire de médecine systémique, Département de génétique humaine, KU Leuven, Louvain, Belgique

Federico Melograna, Zuqi Li et Kristel Van Steen

École de nutrition et de recherche translationnelle sur le métabolisme (NUTRIM), Département de microbiologie médicale, maladies infectieuses et prévention des infections, Maastricht University Medical Center+, Maastricht, Pays-Bas

Gianluca Galazzo et John Penders

Institut de microbiologie médicale, Hôpital universitaire RWTH d'Aix-la-Chapelle, Université RWTH, Aix-la-Chapelle, Allemagne

Niels van Best

Département d'épidémiologie, Institut de recherche sur les soins et la santé publique (CAPHRI), Université de Maastricht, Maastricht, Pays-Bas

Niels van Best et Monique Mommers

Institut de recherche sur les soins et la santé publique (CAPHRI), Université de Maastricht, Maastricht, Pays-Bas

Jean Penders

Département d'informatique, systèmes et communication, Université de Milano-Bicocca, 20126, Milan, Italie

Fabio Stella

BIO3 - Laboratoire de Génétique des Systèmes, GIGA-R Génomique Médicale, Université de Liège, Liège, Belgique

Cristal Van Steen

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

FM, FS et KVS ont développé les méthodes, FM, FS et KVS ont conçu les simulations, FM a réalisé les simulations, FM et ZL ont analysé les résultats. KVS, FM et JP ont aidé à interpréter les résultats, tandis que MM, JP, GG et NVB ont aidé à analyser et à interpréter l'application de données réelles ; GG et JP ont effectué une analyse DMM sur la cohorte LucKi.

Correspondance à Federico Melograna.

Les auteurs ne déclarent aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournir un lien vers la licence Creative Commons et indiquer si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Melograna, F., Li, Z., Galazzo, G. et al. Évaluation de l'importance marginale et modulaire dans les réseaux individuels. Sci Rep 13, 7868 (2023). https://doi.org/10.1038/s41598-023-34759-8

Télécharger la citation

Reçu : 19 septembre 2022

Accepté : 07 mai 2023

Publié: 15 mai 2023

DOI : https://doi.org/10.1038/s41598-023-34759-8

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.

PARTAGER