Logo AgroToulouse

Squamates d'Amazonie

ÉTUDE PHYLOGÉNÉTIQUE ET BIODIVERSITÉ

Logo CRBE

Matériel et méthode

Télechargement des données

Les séquences nucléotidiques des Squamates d'Amazonie ont été extraites de la base NCBI Nucleotide à l'aide du package rentrez en langage R. Les requêtes ont été effectuées sur des espèces ciblées, en utilisant le nom scientifique complet entre guillemets pour un match exact dans le champ [ORGN]. Les séquences ont été filtrées pour ne conserver que celles de 300 à 5000 pb et exclure les séquences de référence (srcdb_refseq) ainsi que les données Whole Genome Shotgun (wgs). Les fichiers GenBank ont été téléchargés par batchs de 30 séquences avec des pauses entre les requêtes afin de respecter les limites du serveur. Une clé API NCBI et un email ont été configurés pour augmenter la limite de requêtes.

Création d'un fichier csv concaténné

Chaque fichier GenBank (.gb) a été traité comme un fichier texte pour extraire les métadonnées principales, notamment : ACCESSION, gene, product, specimen_voucher, organism, geo_loc_name, lat_lon, collection_date et collected_by. Chaques variables ont été nettoyées et harmonisées afin d'obtenir une base de données structurée. Les fichiers CSV produits pour chaque espèce ont ensuite été concaténés pour former un fichier unique, facilitant l'analyse globale.

Analyse descriptive des données

À partir de la base de données finale, des analyses descriptives ont été réalisées pour visualiser la répartition des gènes identifiés dans GenBank et le nombre d'enregistrements par locus. Ces analyses ont permis d'identifier les loci mitochondriaux et nucléaires les plus utilisés et les mieux représentés d'un point de vue taxonomique. Les figures générées ont été exportées au format PNG, et un traitement supplémentaire a été envisagé pour harmoniser les différentes écritures d'un même gène afin de réduire les doublons et clarifier la synthèse des résultats.

Description de l'image

Légende de l'image