Fichiers CSV - Squamates d'Amazonie

Traitement et consolidation des fichiers CSV

Une fois les fichiers GenBank téléchargés pour chaque genre et chaque espèce, les métadonnées extraites sont consolidées en deux fichiers CSV unifiés : COMBINED_GENUS.csv et COMBINED_SPECIES.csv. Ces fichiers constituent la base de travail pour toutes les analyses ultérieures. Plusieurs étapes de nettoyage et d'harmonisation sont nécessaires avant toute exploitation statistique ou cartographique.

Pipeline de traitement

Fusion des fichiers individuels

Tous les fichiers CSV générés par taxon sont lus et empilés via bind_rows(). Les colonnes textuelles sont standardisées en character pour éviter les conflits de types lors de la fusion.

Création de la colonne LOCUS

Une colonne locus unifiant les champs gene et product est créée : si gene est renseigné il est prioritaire, sinon product est utilisé.

Harmonisation des noms de gènes

Un dictionnaire de correspondance de plus de 100 entrées normalise les variantes orthographiques et synonymes (ex. COI, CO1, cytochrome c oxidase subunit I → COX1). Cette étape est indispensable pour les analyses de fréquence par locus.

Reconstruction du nom d'organisme

La colonne ORGANISM est reconstituée en concaténant genus et species, assurant la cohérence entre les deux fichiers combinés.

Séparation des champs géographiques

Le champ geo_loc_name est découpé en country et location. Les coordonnées manquantes dans lat_lon sont récupérées à partir du champ location si elles y sont encodées.

Conversion en coordonnées décimales

Les coordonnées au format GenBank (12.345 N 67.890 W) sont converties en degrés décimaux signés, avec gestion des orientations N/S et E/W.

Nettoyage final et export

Suppression des apostrophes résiduelles dans les colonnes de coordonnées, tri des colonnes, puis export du fichier consolidé COMBINED_GENUS_TSA.csv / COMBINED_SPECIES_TSA.csv.

Harmonisation des noms de gènes

Les enregistrements GenBank utilisent des conventions d'annotation très hétérogènes pour un même marqueur moléculaire. L'harmonisation repose sur un dictionnaire de correspondance et un vecteur de remplacement.

Principaux marqueurs après harmonisation

Les marqueurs sont classés en trois catégories fonctionnelles :

Mitochondriaux (phylogénie, barcoding)

COX1 Cytb ND4 ND2 ND1 ND5 16S 12S

Nucléaires (phylogénie multi-locus)

CMOS BDNF GAPDH KIF24 RH2 SWS1 LWS NT3 RBMX

Exemple d'harmonisation dans R

# Extrait du dictionnaire de correspondance
replacements <- c(
  "COI" = "COX1",
  "CO1" = "COX1",
  "cytochrome c oxidase subunit I" = "COX1",
  "cytochrome c oxidase subunit 1" = "COX1",
  "CYTB" = "Cytb",
  "cytochrome b" = "Cytb",
  "NAD4" = "ND4", "NADH4" = "ND4",
  "NADH dehydrogenase subunit 4" = "ND4"
)

# Application du remplacement
COMBINED_GENUS <- COMBINED_GENUS %>%
  mutate(locus = ifelse(locus %in% names(replacements),
                replacements[locus], locus))

Structure du fichier CSV final

Après traitement, chaque ligne du fichier correspond à une séquence GenBank et contient les colonnes suivantes :

Colonne	Type	Description
`ACCESSION`	character	Identifiant GenBank unique
`ORGANISM`	character	Nom binomial reconstitué (genus + species)
`genus`	character	Genre taxonomique
`species`	character	Épithète spécifique
`locus`	character	Nom harmonisé du marqueur moléculaire
`sequence_length`	integer	Longueur de la séquence en pb
`specimen_voucher`	character	Référence du spécimen de collection (standardisée)
`country`	character	Pays d'origine (extrait de geo_loc_name)
`location`	character	Localité précise
`latitude`	numeric	Latitude décimale (signée)
`longitude`	numeric	Longitude décimale (signée)
`organelle`	character	Origine cellulaire (mitochondrion, etc.)
`DEFINITION`	character	Description complète de la séquence
`ORIGIN`	character	Séquence nucléotidique brute
`ID`	character	Identifiant composite (ACCESSION / voucher)
`FileName`	character	Fichier source d'origine