Logo AgroToulouse

Les Squamates d'Amazonie

CHLOÉ GASTÉ

Logo CRBE

Téléchargement des données GenBank

L'obtention des séquences moléculaires disponibles pour les squamates d'Amazonie repose sur des requêtes automatisées à la base de données GenBank du NCBI, via le package R rentrez. Deux stratégies complémentaires ont été mises en place afin de maximiser la couverture taxonomique. De plus, la recherche par genre permettant d'intégrer les espèces proches phylogénétiquement, de capturer les taxons absents de la liste mais présents dans les genres d'intérêt, et d'inclure d'éventuelles lignées cryptiques ou espèces non décrites.

1

Recherche par espèce

Interrogation directe de GenBank pour chaque espèce de la liste de référence. Cette approche cible précisément les taxons d'intérêt. En limitant aussi les pannes de serveur

2

Recherche par genre

Interrogation pour chaque genre présent dans la liste, permettant de récupérer des séquences d'espèces proches non listées et d'enrichir la couverture phylogénétique. Néanmoins, cette approche est beaucoup plus couteuse.

754 Espèces dans la liste de référence
522 Espèces trouvées (plan espèces)
497 Espèces trouvées (plan genres)

Pipeline de téléchargement

Le processus complet suit plusieurs étapes enchaînées, de la construction de la requête jusqu'à l'export des données nettoyées en fichier CSV par taxon.

1

Vérification de la nomenclature

Avant toute requête, la liste d'espèces est comparée à la Reptile Database via le package letsRept (fonction reptCompare) afin de s'assurer que tous les noms sont valides et à jour.

2

Construction de la requête filtrée

Pour chaque taxon (espèce ou genre), une requête NCBI est construite avec des filtres positifs et négatifs ciblant les séquences entre 300–5 000 bp. Ceci pour limiter le nombre de sorties NCBI

3

Téléchargement par lots

Les séquences sont récupérées au format GenBank (.gb) par lots de 30 enregistrements via entrez_fetch, avec gestion des interruptions.

4

Extraction des métadonnées

Les champs utiles sont extraits de chaque enregistrement : accession, organisme, gène, voucher, localisation géographique, coordonnées, longueur de séquence.

5

Export CSV par taxon

Un fichier CSV est généré pour chaque genre ou espèce, puis fusionné en un fichier unique COMBINED_SPECIES.csv ou alors COMBINED_GENUS.csv après nettoyage et standardisation.

Filtres appliqués aux requêtes

Les requêtes GenBank intègrent plusieurs filtres pour exclure les types de séquences non pertinentes ce type d'analyse (génomes complets, données transcriptomiques, séquences de moins de 300 bp ou de plus de 5 000 bp). Ces requêtes permettent aussi de pallier la problématique de surexploitation du serveur.

Filtres négatifs (exclusions)

NOT srcdb_refseq NOT TSA[PROP] NOT wgs[Filter] NOT 'whole genome'[TITL] NOT 'complete genome'[TITL]

Filtre positif (taille)

300 – 5 000 bp [SLEN]

Exemple de requête construite

# Exemple pour le genre Anolis
Anolis[ORGN]
AND 300:5000[SLEN]
NOT srcdb_refseq[PROP]
NOT TSA[PROP]
NOT wgs[Filter]
NOT 'whole genome'[TITL]
NOT 'complete genome'[TITL]

Cette stratégie de filtrage par mots-clés sur le champ DEFINITION et les propriétés de la séquence permet d'éviter la surcharge liée aux grands genres (e.g. Anolis) qui comptent de nombreux génomes complets ou données transcriptomiques enregistrés dans GenBank.

Métadonnées extraites

Pour chaque séquence téléchargée, les informations suivantes sont extraites directement depuis le fichier GenBank et structurées dans le fichier CSV final.

Champ Description Source GenBank
ACCESSIONIdentifiant unique de la séquenceChamp ACCESSION
ORGANISMNom de l'espèce/organism
geneNom du gène séquencé/gene
sequence_lengthLongueur en paires de basesChamp LOCUS
specimen_voucherRéférence du spécimen de collection/specimen_voucher
geo_loc_namePays et localité/geo_loc_name
lat_lonCoordonnées géographiques/lat_lon
latitude / longitudeCoordonnées décimales convertiesCalculé
DEFINITIONDescription de la séquenceChamp DEFINITION
organelleOrigine (mitochondrie, chloroplaste…)/organelle
productProduit du gène/product
ORIGINSéquence nucléotidique bruteChamp ORIGIN

Résultats comparatifs des deux approches

Les deux stratégies de téléchargement ont été comparées par intersection puis analysées dans R pour évaluer leur complémentarité.

Diagrammes de Venn

Les diagrammes ci-dessous illustrent le recouvrement entre la liste des espèces amazoniennes de référence et les séquences disponibles sur NCBI pour chacune des deux approches.

Diagramme de Venn – Plan espèces

Figure 1. Recherche par espèce — Recherche par espèce. 525 espèces de la liste sont présentes sur NCBI, 229 sont absentes. Les 45 espèces additionnelles correspondent à des erreurs lors de l'extractions des données du à des noms d'espèces simialire pour des genres différents.

Diagramme de Venn – Plan genres

Figure 2. Recherche par genre — Recherche par genre. 525 espèces de la liste sont présentes sur NCBI ; 1 711 séquences supplémentaires des mêmes genres sont également disponibles.