Traitement et consolidation des fichiers CSV
Une fois les fichiers GenBank téléchargés pour chaque genre et chaque espèce, les métadonnées
extraites sont consolidées en deux fichiers CSV unifiés : COMBINED_GENUS.csv
et COMBINED_SPECIES.csv. Ces fichiers constituent la base de travail pour
toutes les analyses ultérieures. Plusieurs étapes de nettoyage et d'harmonisation sont
nécessaires avant toute exploitation statistique ou cartographique.
Pipeline de traitement
Fusion des fichiers individuels
Tous les fichiers CSV générés par taxon sont lus et empilés via bind_rows().
Les colonnes textuelles sont standardisées en character pour éviter les
conflits de types lors de la fusion.
Création de la colonne LOCUS
Une colonne locus unifiant les champs gene et
product est créée : si gene est renseigné il est prioritaire,
sinon product est utilisé.
Harmonisation des noms de gènes
Un dictionnaire de correspondance de plus de 100 entrées normalise les variantes orthographiques et synonymes (ex. COI, CO1, cytochrome c oxidase subunit I → COX1). Cette étape est indispensable pour les analyses de fréquence par locus.
Reconstruction du nom d'organisme
La colonne ORGANISM est reconstituée en concaténant genus
et species, assurant la cohérence entre les deux fichiers combinés.
Séparation des champs géographiques
Le champ geo_loc_name est découpé en country et
location. Les coordonnées manquantes dans lat_lon sont
récupérées à partir du champ location si elles y sont encodées.
Conversion en coordonnées décimales
Les coordonnées au format GenBank (12.345 N 67.890 W) sont converties en degrés décimaux signés, avec gestion des orientations N/S et E/W.
Nettoyage final et export
Suppression des apostrophes résiduelles dans les colonnes de coordonnées,
tri des colonnes, puis export du fichier consolidé
COMBINED_GENUS_TSA.csv / COMBINED_SPECIES_TSA.csv.
Harmonisation des noms de gènes
Les enregistrements GenBank utilisent des conventions d'annotation très hétérogènes pour un même marqueur moléculaire. L'harmonisation repose sur un dictionnaire de correspondance et un vecteur de remplacement.
Principaux marqueurs après harmonisation
Les marqueurs sont classés en trois catégories fonctionnelles :
Mitochondriaux (phylogénie, barcoding)
Nucléaires (phylogénie multi-locus)
Exemple d'harmonisation dans R
replacements <- c(
"COI" = "COX1",
"CO1" = "COX1",
"cytochrome c oxidase subunit I" = "COX1",
"cytochrome c oxidase subunit 1" = "COX1",
"CYTB" = "Cytb",
"cytochrome b" = "Cytb",
"NAD4" = "ND4", "NADH4" = "ND4",
"NADH dehydrogenase subunit 4" = "ND4"
)
# Application du remplacement
COMBINED_GENUS <- COMBINED_GENUS %>%
mutate(locus = ifelse(locus %in% names(replacements),
replacements[locus], locus))
Structure du fichier CSV final
Après traitement, chaque ligne du fichier correspond à une séquence GenBank et contient les colonnes suivantes :
| Colonne | Type | Description |
|---|---|---|
ACCESSION | character | Identifiant GenBank unique |
ORGANISM | character | Nom binomial reconstitué (genus + species) |
genus | character | Genre taxonomique |
species | character | Épithète spécifique |
locus | character | Nom harmonisé du marqueur moléculaire |
sequence_length | integer | Longueur de la séquence en pb |
specimen_voucher | character | Référence du spécimen de collection (standardisée) |
country | character | Pays d'origine (extrait de geo_loc_name) |
location | character | Localité précise |
latitude | numeric | Latitude décimale (signée) |
longitude | numeric | Longitude décimale (signée) |
organelle | character | Origine cellulaire (mitochondrion, etc.) |
DEFINITION | character | Description complète de la séquence |
ORIGIN | character | Séquence nucléotidique brute |
ID | character | Identifiant composite (ACCESSION / voucher) |
FileName | character | Fichier source d'origine |

