Téléchargement des données - Squamates d'Amazonie

Téléchargement des données GenBank

L'obtention des séquences moléculaires disponibles pour les squamates d'Amazonie repose sur des requêtes automatisées à la base de données GenBank du NCBI, via le package R rentrez. Deux stratégies complémentaires ont été mises en place afin de maximiser la couverture taxonomique. De plus, la recherche par genre permettant d'intégrer les espèces proches phylogénétiquement, de capturer les taxons absents de la liste mais présents dans les genres d'intérêt, et d'inclure d'éventuelles lignées cryptiques ou espèces non décrites.

1

Recherche par espèce

Interrogation directe de GenBank pour chaque espèce de la liste de référence. Cette approche cible précisément les taxons d'intérêt. En limitant aussi les pannes de serveur

2

Recherche par genre

Interrogation pour chaque genre présent dans la liste, permettant de récupérer des séquences d'espèces proches non listées et d'enrichir la couverture phylogénétique. Néanmoins, cette approche est beaucoup plus couteuse.

754 Espèces dans la liste de référence

522 Espèces trouvées (plan espèces)

497 Espèces trouvées (plan genres)

Pipeline de téléchargement

Le processus complet suit plusieurs étapes enchaînées, de la construction de la requête jusqu'à l'export des données nettoyées en fichier CSV par taxon.

1

Vérification de la nomenclature

Avant toute requête, la liste d'espèces est comparée à la Reptile Database via le package letsRept (fonction reptCompare) afin de s'assurer que tous les noms sont valides et à jour.

2

Construction de la requête filtrée

Pour chaque taxon (espèce ou genre), une requête NCBI est construite avec des filtres positifs et négatifs ciblant les séquences entre 300–5 000 bp. Ceci pour limiter le nombre de sorties NCBI

3

Téléchargement par lots

Les séquences sont récupérées au format GenBank (.gb) par lots de 30 enregistrements via entrez_fetch, avec gestion des interruptions.

4

Extraction des métadonnées

Les champs utiles sont extraits de chaque enregistrement : accession, organisme, gène, voucher, localisation géographique, coordonnées, longueur de séquence.

5

Export CSV par taxon

Un fichier CSV est généré pour chaque genre ou espèce, puis fusionné en un fichier unique COMBINED_SPECIES.csv ou alors COMBINED_GENUS.csv après nettoyage et standardisation.

Filtres appliqués aux requêtes

Les requêtes GenBank intègrent plusieurs filtres pour exclure les types de séquences non pertinentes ce type d'analyse (génomes complets, données transcriptomiques, séquences de moins de 300 bp ou de plus de 5 000 bp). Ces requêtes permettent aussi de pallier la problématique de surexploitation du serveur.

Filtres négatifs (exclusions)

NOT srcdb_refseq NOT TSA[PROP] NOT wgs[Filter] NOT 'whole genome'[TITL] NOT 'complete genome'[TITL]

Filtre positif (taille)

300 – 5 000 bp [SLEN]

Exemple de requête construite

# Exemple pour le genre Anolis
Anolis[ORGN]
AND 300:5000[SLEN]
NOT srcdb_refseq[PROP]
NOT TSA[PROP]
NOT wgs[Filter]
NOT 'whole genome'[TITL]
NOT 'complete genome'[TITL]

Cette stratégie de filtrage par mots-clés sur le champ DEFINITION et les propriétés de la séquence permet d'éviter la surcharge liée aux grands genres (e.g. Anolis) qui comptent de nombreux génomes complets ou données transcriptomiques enregistrés dans GenBank.

Métadonnées extraites

Pour chaque séquence téléchargée, les informations suivantes sont extraites directement depuis le fichier GenBank et structurées dans le fichier CSV final.

Champ	Description	Source GenBank
`ACCESSION`	Identifiant unique de la séquence	Champ ACCESSION
`ORGANISM`	Nom de l'espèce	/organism
`gene`	Nom du gène séquencé	/gene
`sequence_length`	Longueur en paires de bases	Champ LOCUS
`specimen_voucher`	Référence du spécimen de collection	/specimen_voucher
`geo_loc_name`	Pays et localité	/geo_loc_name
`lat_lon`	Coordonnées géographiques	/lat_lon
`latitude / longitude`	Coordonnées décimales converties	Calculé
`DEFINITION`	Description de la séquence	Champ DEFINITION
`organelle`	Origine (mitochondrie, chloroplaste…)	/organelle
`product`	Produit du gène	/product
`ORIGIN`	Séquence nucléotidique brute	Champ ORIGIN

Résultats comparatifs des deux approches

Les deux stratégies de téléchargement ont été comparées par intersection puis analysées dans R pour évaluer leur complémentarité.

Diagrammes de Venn

Les diagrammes ci-dessous illustrent le recouvrement entre la liste des espèces amazoniennes de référence et les séquences disponibles sur NCBI pour chacune des deux approches.

Figure 1. Recherche par espèce — Recherche par espèce. 525 espèces de la liste sont présentes sur NCBI, 229 sont absentes. Les 45 espèces additionnelles correspondent à des erreurs lors de l'extractions des données du à des noms d'espèces simialire pour des genres différents.

Figure 2. Recherche par genre — Recherche par genre. 525 espèces de la liste sont présentes sur NCBI ; 1 711 séquences supplémentaires des mêmes genres sont également disponibles.