Tools for massive bacterial comparative genomics : Development and Applications - Institut Pasteur Accéder directement au contenu
Thèse Année : 2022

Tools for massive bacterial comparative genomics : Development and Applications

Outils pour la génomique comparative des bactéries à large échelle : développement et applications

Résumé

Bacterial comparative genomics consists in comparing the gene contents of different strains: their pangenome. With the increasing number of strains sequenced, the tools available when I started this PhD were reaching their limits in terms of computation time and space. The aim was to develop a method able to handle thousands of genomes, accurately and in a reasonable amount of time. Besides, to our knowledge, no tool was able to do all key steps of any comparative genomics study. This spurred the development of PanACoTA, a tool to standardize and automatize the process to build the key collections of data needed for these studies. This includes all steps from downloading genomes with a quality control until the inference of a phylogenetic tree based on the core genome (genes shared by all strains). In order to be able to adapt to specific needs (exploration of parameters, additional steps), we implemented it in a modular way. For the “pangenome” module, we developed a new method, based on recent tools of genome comparison and clustering. Robust to changes in sampling size, this method can infer a pangenome of 4000 strains in 30 minutes. During its development, we applied PanACoTA to different kinds of studies. We showed its usefulness for short-term studies (find specificity of a pathogenic strain of E. anophelis), long-term (genomic diversity of E. coli species), or to identify different species in an little-known genus (Morganella).
La génomique comparative bactérienne consiste à comparer les contenus en gène des différentes souches : leur pangenome. Avec le nombre croissant de séquençages, les logiciels existants au début de cette thèse arrivaient à leurs limites en termes de temps de calcul et de mémoire. L’enjeu était de passer à l’échelle de milliers de génomes dans un temps raisonnable, en gardant une précision correcte. De plus, à notre connaissance, aucun logiciel ne permettait d’effectuer toutes les étapes clés d’une étude de génomique comparative. C’est dans ce contexte que nous avons développé PanACoTA, un outil ayant pour but de standardiser et automatiser la préparation de données pour ces études, depuis le téléchargement des génomes et leur contrôle qualité jusqu’à l’inférence de l’arbre phylogénétique du core génome (gènes communs à tous les génomes). Son implémentation sous forme de modules a été pensée pour permettre de s’adapter aux besoins spécifiques de certaines études (exploration de paramètres, étapes supplémentaires). Concernant le module « pangenome », nous avons développé une nouvelle méthode, s’appuyant sur des outils récents de comparaison et clustering de séquences. Robuste aux changements d’échelle, elle permet de calculer un pangénome de 4000 souches en 30 minutes. Au cours de son développement, nous avons appliqué PanACoTA dans différents contextes. Nous avons montré l’utilité de l’outil sur des études à court terme (recherche de la particularité d’une souche épidémique d’E. anophelis), sur du long terme (étude de la diversité génomique de l’espèce E. coli), ou encore pour différencier différentes espèces d’un genre peu connu (Morganella).
Fichier principal
Vignette du fichier
PERRIN_Amandine_these_2022.pdf (21.92 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03789655 , version 1 (16-06-2022)
tel-03789655 , version 2 (27-09-2022)

Licence

Paternité - Pas d'utilisation commerciale - Pas de modification

Identifiants

  • HAL Id : tel-03789655 , version 2

Citer

Amandine Perrin. Tools for massive bacterial comparative genomics : Development and Applications. Quantitative Methods [q-bio.QM]. Sorbonne Université, 2022. English. ⟨NNT : 2022SORUS127⟩. ⟨tel-03789655v2⟩
221 Consultations
97 Téléchargements

Partager

Gmail Facebook X LinkedIn More