Téléchargement des données GenBank
L'obtention des séquences moléculaires disponibles pour les squamates d'Amazonie repose sur des requêtes automatisées à la base de données GenBank du NCBI, via le package R rentrez. Deux stratégies complémentaires ont été mises en place afin de maximiser la couverture taxonomique. De plus, la recherche par genre permettant d'intégrer les espèces proches phylogénétiquement, de capturer les taxons absents de la liste mais présents dans les genres d'intérêt, et d'inclure d'éventuelles lignées cryptiques ou espèces non décrites.
Recherche par espèce
Interrogation directe de GenBank pour chaque espèce de la liste de référence. Cette approche cible précisément les taxons d'intérêt. En limitant aussi les pannes de serveur
Recherche par genre
Interrogation pour chaque genre présent dans la liste, permettant de récupérer des séquences d'espèces proches non listées et d'enrichir la couverture phylogénétique. Néanmoins, cette approche est beaucoup plus couteuse.
Pipeline de téléchargement
Le processus complet suit plusieurs étapes enchaînées, de la construction de la requête jusqu'à l'export des données nettoyées en fichier CSV par taxon.
Vérification de la nomenclature
Avant toute requête, la liste d'espèces est comparée à la Reptile Database via le package
letsRept (fonction reptCompare) afin de s'assurer que tous les noms
sont valides et à jour.
Construction de la requête filtrée
Pour chaque taxon (espèce ou genre), une requête NCBI est construite avec des filtres positifs et négatifs ciblant les séquences entre 300–5 000 bp. Ceci pour limiter le nombre de sorties NCBI
Téléchargement par lots
Les séquences sont récupérées au format GenBank (.gb) par lots de 30
enregistrements via entrez_fetch, avec gestion des interruptions.
Extraction des métadonnées
Les champs utiles sont extraits de chaque enregistrement : accession, organisme, gène, voucher, localisation géographique, coordonnées, longueur de séquence.
Export CSV par taxon
Un fichier CSV est généré pour chaque genre ou espèce, puis fusionné en un fichier
unique COMBINED_SPECIES.csv ou alors COMBINED_GENUS.csv après nettoyage et standardisation.
Filtres appliqués aux requêtes
Les requêtes GenBank intègrent plusieurs filtres pour exclure les types de séquences non pertinentes ce type d'analyse (génomes complets, données transcriptomiques, séquences de moins de 300 bp ou de plus de 5 000 bp). Ces requêtes permettent aussi de pallier la problématique de surexploitation du serveur.
Filtres négatifs (exclusions)
Filtre positif (taille)
Exemple de requête construite
Anolis[ORGN]
AND 300:5000[SLEN]
NOT srcdb_refseq[PROP]
NOT TSA[PROP]
NOT wgs[Filter]
NOT 'whole genome'[TITL]
NOT 'complete genome'[TITL]
Cette stratégie de filtrage par mots-clés sur le champ DEFINITION et les propriétés de la séquence permet d'éviter la surcharge liée aux grands genres (e.g. Anolis) qui comptent de nombreux génomes complets ou données transcriptomiques enregistrés dans GenBank.
Métadonnées extraites
Pour chaque séquence téléchargée, les informations suivantes sont extraites directement depuis le fichier GenBank et structurées dans le fichier CSV final.
| Champ | Description | Source GenBank |
|---|---|---|
ACCESSION | Identifiant unique de la séquence | Champ ACCESSION |
ORGANISM | Nom de l'espèce | /organism |
gene | Nom du gène séquencé | /gene |
sequence_length | Longueur en paires de bases | Champ LOCUS |
specimen_voucher | Référence du spécimen de collection | /specimen_voucher |
geo_loc_name | Pays et localité | /geo_loc_name |
lat_lon | Coordonnées géographiques | /lat_lon |
latitude / longitude | Coordonnées décimales converties | Calculé |
DEFINITION | Description de la séquence | Champ DEFINITION |
organelle | Origine (mitochondrie, chloroplaste…) | /organelle |
product | Produit du gène | /product |
ORIGIN | Séquence nucléotidique brute | Champ ORIGIN |
Résultats comparatifs des deux approches
Les deux stratégies de téléchargement ont été comparées par intersection puis analysées dans R pour évaluer leur complémentarité.
Diagrammes de Venn
Les diagrammes ci-dessous illustrent le recouvrement entre la liste des espèces amazoniennes de référence et les séquences disponibles sur NCBI pour chacune des deux approches.
Figure 1. Recherche par espèce — Recherche par espèce. 525 espèces de la liste sont présentes sur NCBI, 229 sont absentes. Les 45 espèces additionnelles correspondent à des erreurs lors de l'extractions des données du à des noms d'espèces simialire pour des genres différents.
Figure 2. Recherche par genre — Recherche par genre. 525 espèces de la liste sont présentes sur NCBI ; 1 711 séquences supplémentaires des mêmes genres sont également disponibles.