Graphiques et analyses

L'analyse des données combine deux outils complémentaires : QGIS pour les opérations spatiales (projection des occurrences, intersection avec le masque amazonien, extraction des listes d'espèces géoréférencées) et R pour les analyses statistiques et la production de graphiques (fréquences des marqueurs moléculaires, diagrammes de Venn, comparaison des deux stratégies de téléchargement).

🗺 QGIS 3.44

Analyses spatiales

Projection des coordonnées GenBank, correction des géométries, sélection par localisation sur le masque Amazonie, export des listes d'espèces filtrées.

📊 R / ggplot2

Analyses statistiques

Calcul des fréquences de gènes, diagrammes de Venn (VennDiagram), comparaison des deux plans de téléchargement, union et différences des listes.

Projection et filtrage spatial sous QGIS

Les coordonnées géographiques extraites des enregistrements GenBank sont exportées en CSV depuis R, puis chargées dans QGIS comme couche de points (CRS : EPSG:4326). Une intersection spatiale avec le masque vectoriel de l'Amazonie permet d'isoler les occurrences situées dans la zone d'étude.

Pipeline QGIS

1

Export des coordonnées depuis R

Les colonnes ORGANISM, latitude et longitude sont filtrées et exportées en CSV (genus_coordinates_all_localities.csv et species_coordinates_all_localities.csv).

2

Chargement dans QGIS

Les fichiers CSV sont ajoutés comme couches de texte délimité avec xField = longitude, yField = latitude, CRS EPSG:4326.

3

Correction de la géométrie du masque

Le masque amazonien (amapoly_ivb_wgs84.shp) présentait des géométries invalides. L'outil Réparer les géométries (Géométrie vectorielle) a été appliqué pour générer amapoly_fixed.shp.

4

Sélection par localisation

L'outil Sélectionner par localisation (prédicat : intersecte) est appliqué sur les couches de points avec amapoly_fixed.shp comme géométrie de référence. Les points sélectionnés correspondent aux occurrences situées en Amazonie.

5

Export de la sélection

Les entités sélectionnées sont exportées via Clic droit → Exporter → Sauvegarder les entités sélectionnées sous…, produisant les fichiers species_amazonia.csv et genus_amazonia.csv.

Résultats : espèces amazoniennes identifiées

L'intersection spatiale avec le masque amazonien a permis d'extraire deux listes d'espèces géoréférencées en Amazonie, issues respectivement de la recherche par genre et par espèce. Ces deux listes sont ensuite comparées dans R.

754 Espèces dans la liste de référence

525 Trouvées par les deux méthodes

229 Espèces manquantes de la liste de référence

113 Trouvées via genres (NCBI) dont les échantillons proviennent d'Amazonie

90 Trouvées via espèces (NCBI) dont les échantillons proviennent d'Amazonie

Projection des échantillons avant et après filtrage

Les graphes ci-dessous représentes les projection des espèces pour lesquelles les données géographiques sont indiquées dans NCBI. Des 525 espèces identifées dans NCBI seulement 113 sont géolocalisables sur une carte.

Venn – espèces amazoniennes (plan espèces)

Figure 1. Projection global des espèces identifiées — Nous pouvons observer que pour une recherche large en incluant les genres, nombreux sont les résultats. Pour ce concentrer sur les espèces amazonienne il faut filtrer sur la couche amazonienne (secteur vert)

Venn – espèces amazoniennes (plan genres)

Figure 2. Projection des espèces amazoniennes — Sur cette carte nous pouvons observer les espèces présentes à l'intérieur du périmètre Amazonien. Ces dernières sont colorées par espèces distinctes (113 au total)

Fréquence des marqueurs moléculaires

L'analyse de la fréquence des gènes dans le jeu de données consolidé permet d'identifier les marqueurs les mieux représentés pour les squamates amazoniens. Chaque locus est caractérisé par son nombre d'occurrences et le nombre d'espèces distinctes couvertes, et est coloré selon son origine cellulaire (mitochondrial vs nucléaire).

Top 20 des marqueurs les plus représentés

Top 20 des marqueurs moléculaires pour la méthode genres

Figure 3. Les 20 marqueurs moléculaires les plus fréquents dans le jeu de données genres. Les barres rouges correspondent aux gènes mitochondriaux, les barres grises aux gènes nucléaires. Les chiffres à droite indiquent le nombre d'espèces distinctes couvertes par chaque marqueur.

Top 20 des marqueurs moléculaires pour la méthode espèces

Figure 4. Les 20 marqueurs moléculaires les plus fréquents dans le jeu de données espèces. Les barres rouges correspondent aux gènes mitochondriaux, les barres grises aux gènes nucléaires. Les chiffres à droite indiquent le nombre d'espèces distinctes couvertes par chaque marqueur.

Code R — graphique de fréquence

# Calcul des fréquences
gene_freq <- COMBINED_GENUS %>%
  filter(!is.na(locus), locus != "") %>%
  mutate(gene_type = case_when(
    grepl("mitochondrion", organelle) ~ "Mitochondrial",
    is.na(organelle) ~ "Nuclear"
  )) %>%
  group_by(locus, gene_type) %>%
  summarise(n_occurrences = n(), n_species = n_distinct(ORGANISM))

# Graphique top 20
ggplot(gene_freq_top20, aes(x = n_occurrences,
       y = reorder(locus, n_occurrences), fill = gene_type)) +
  geom_bar(stat = "identity") +
  geom_text(aes(label = n_species), hjust = -0.1, size = 3) +
  scale_fill_manual(values = c("Mitochondrial" = "#F8766D", "Nuclear" = "#D3D3D3"))

Les marqueurs mitochondriaux (COX1, Cytb, ND4) dominent très largement le jeu de données, ce qui est attendu pour les squamates.