Logo AgroToulouse

Les Squamates d'Amazonie

CHLOÉ GASTÉ

Logo CRBE

Traitement et consolidation des fichiers CSV

Une fois les fichiers GenBank téléchargés pour chaque genre et chaque espèce, les métadonnées extraites sont consolidées en deux fichiers CSV unifiés : COMBINED_GENUS.csv et COMBINED_SPECIES.csv. Ces fichiers constituent la base de travail pour toutes les analyses ultérieures. Plusieurs étapes de nettoyage et d'harmonisation sont nécessaires avant toute exploitation statistique ou cartographique.

Pipeline de traitement

1

Fusion des fichiers individuels

Tous les fichiers CSV générés par taxon sont lus et empilés via bind_rows(). Les colonnes textuelles sont standardisées en character pour éviter les conflits de types lors de la fusion.

2

Création de la colonne LOCUS

Une colonne locus unifiant les champs gene et product est créée : si gene est renseigné il est prioritaire, sinon product est utilisé.

3

Harmonisation des noms de gènes

Un dictionnaire de correspondance de plus de 100 entrées normalise les variantes orthographiques et synonymes (ex. COI, CO1, cytochrome c oxidase subunit ICOX1). Cette étape est indispensable pour les analyses de fréquence par locus.

4

Reconstruction du nom d'organisme

La colonne ORGANISM est reconstituée en concaténant genus et species, assurant la cohérence entre les deux fichiers combinés.

5

Séparation des champs géographiques

Le champ geo_loc_name est découpé en country et location. Les coordonnées manquantes dans lat_lon sont récupérées à partir du champ location si elles y sont encodées.

6

Conversion en coordonnées décimales

Les coordonnées au format GenBank (12.345 N 67.890 W) sont converties en degrés décimaux signés, avec gestion des orientations N/S et E/W.

7

Nettoyage final et export

Suppression des apostrophes résiduelles dans les colonnes de coordonnées, tri des colonnes, puis export du fichier consolidé COMBINED_GENUS_TSA.csv / COMBINED_SPECIES_TSA.csv.

Harmonisation des noms de gènes

Les enregistrements GenBank utilisent des conventions d'annotation très hétérogènes pour un même marqueur moléculaire. L'harmonisation repose sur un dictionnaire de correspondance et un vecteur de remplacement.

Principaux marqueurs après harmonisation

Les marqueurs sont classés en trois catégories fonctionnelles :

Mitochondriaux (phylogénie, barcoding)

COX1 Cytb ND4 ND2 ND1 ND5 16S 12S

Nucléaires (phylogénie multi-locus)

CMOS BDNF GAPDH KIF24 RH2 SWS1 LWS NT3 RBMX

Exemple d'harmonisation dans R

# Extrait du dictionnaire de correspondance
replacements <- c(
  "COI" = "COX1",
  "CO1" = "COX1",
  "cytochrome c oxidase subunit I" = "COX1",
  "cytochrome c oxidase subunit 1" = "COX1",
  "CYTB" = "Cytb",
  "cytochrome b" = "Cytb",
  "NAD4" = "ND4", "NADH4" = "ND4",
  "NADH dehydrogenase subunit 4" = "ND4"
)

# Application du remplacement
COMBINED_GENUS <- COMBINED_GENUS %>%
  mutate(locus = ifelse(locus %in% names(replacements),
                replacements[locus], locus))

Structure du fichier CSV final

Après traitement, chaque ligne du fichier correspond à une séquence GenBank et contient les colonnes suivantes :

Colonne Type Description
ACCESSIONcharacterIdentifiant GenBank unique
ORGANISMcharacterNom binomial reconstitué (genus + species)
genuscharacterGenre taxonomique
speciescharacterÉpithète spécifique
locuscharacterNom harmonisé du marqueur moléculaire
sequence_lengthintegerLongueur de la séquence en pb
specimen_vouchercharacterRéférence du spécimen de collection (standardisée)
countrycharacterPays d'origine (extrait de geo_loc_name)
locationcharacterLocalité précise
latitudenumericLatitude décimale (signée)
longitudenumericLongitude décimale (signée)
organellecharacterOrigine cellulaire (mitochondrion, etc.)
DEFINITIONcharacterDescription complète de la séquence
ORIGINcharacterSéquence nucléotidique brute
IDcharacterIdentifiant composite (ACCESSION / voucher)
FileNamecharacterFichier source d'origine