Projet Série 1 • Février 2026

Analyse RNA-seq : Sporulation et production de NGPs chez Aspergillus tubingensis

Élucidation des mécanismes moléculaires impliqués dans la sporulation

Romain Sainte-Rose & Elise Nasr
INP AgroToulouse
Laboratoire de Génie Chimique • BioSyM

Introduction

Aspergillus tubingensis est un champignon filamenteux appartenant à la famille des black Aspergilli, un groupe de microorganismes caractérisés par la production de spores noires ou brun foncé. Ces champignons sont omniprésents dans l'environnement et jouent un rôle important dans la décomposition de la matière organique.

Au-delà de leur importance écologique, certaines espèces du genre Aspergillus présentent un intérêt industriel en raison de leur capacité à produire des métabolites secondaires intéressants sur le plan biotechnologique.

Les Naphto-γ-pyrones (NGPs)

  • Molécules polyaromatiques
  • Propriétés antioxydantes remarquables
  • Applications pharmaceutiques, cosmétiques et alimentaires
  • Prévention du stress oxydatif

La Sporulation

  • Processus biologique fondamental
  • Reproduction asexuée des champignons
  • Formation de conidiophores et conidies
  • Régulation par le facteur BrlA

Enjeu Industriel

  • Production en conditions statiques : sporulation + NGPs
  • Conditions agitées : absence de sporulation et de NGPs
  • Verrou majeur pour la montée en échelle
  • Optimisation du bioprocédé nécessaire

Contexte du Projet

Parties Prenantes

Commanditaires : Selma Snini, Florence Mathieu (Département BioSyM - Laboratoire de Génie Chimique)
Conseillère technique : Marie-Françoise Jardinaud
Équipe projet : Romain Sainte-Rose, Elise Nasr

Problématique Scientifique

Des observations préliminaires suggèrent que la production des NGPs est étroitement liée à la sporulation du champignon. En conditions de culture statique, la souche sauvage sporule et produit ces métabolites, tandis qu'en conditions agitées (envisagées pour une montée en échelle en bioréacteur), la sporulation est absente, ce qui empêche la production de NGPs.

Contrainte technologique : Cette dépendance représente un verrou majeur pour l'optimisation du bioprocédé. Les bioréacteurs industriels fonctionnent généralement en conditions agitées pour assurer une homogénéisation du milieu, un transfert d'oxygène efficace et une distribution optimale des nutriments.

Approche Expérimentale

Afin de tester l'hypothèse d'un lien direct entre sporulation et production de NGPs, une souche mutante ΔbrlA, déficiente pour le gène brlA (facteur clé en amont de la cascade de sporulation), a été générée. Cette souche est incapable de sporuler et ne produit pas de NGPs.

[Figure : Protocole expérimental - Obtention des données RNA-seq]

Figure 1 : Mise en contexte de l'obtention du jeu de données RNA-seq. Comparaison entre souche sauvage (sporulante, productrice de NGPs) et souche mutante ΔbrlA (non sporulante, non productrice).

Finalités du Projet

L'analyse RNA-seq vise à répondre à plusieurs objectifs complémentaires :

1. Identification des gènes de sporulation

Déterminer quels sont les gènes spécifiquement associés à la sporulation chez A. tubingensis

2. Effets de la mutation brlA

Identifier les gènes affectés par la mutation et évaluer les effets indirects sur la croissance métabolique globale

3. Voies de biosynthèse des NGPs

Mettre en évidence les voies biologiques potentiellement impliquées dans la biosynthèse des NGPs

4. Lien mélanine - NGPs

Explorer le lien potentiel entre les voies de biosynthèse de la mélanine (DHN-mélanine) et la production de NGPs

Objectif final : Confirmer ou infirmer le lien entre sporulation et production des NGPs. Ceci pourrait permettre, à terme, d'orienter le développement d'un bioprocédé permettant la production de NGPs en milieu agité, indépendamment de la sporulation.

Méthodologie

Design Expérimental

2 Souches comparées
6 Réplicats biologiques/souche
12 Échantillons totaux

L'étude compare 2 souches d'Aspergillus tubingensis : la souche sauvage (WT) sporulante et produisant des NGPs, et la souche mutante (ΔbrlA), non sporulante et non productrice de NGPs. Ces deux souches ont été mises en culture dans des conditions statiques identiques.

Pipeline d'Analyse RNA-seq

Séquençage

Séquençage paired-end (2×50 pb) générant des fichiers FastQ

Contrôle Qualité

FastQC suivi d'un nettoyage (trimming des adaptateurs et bases de mauvaise qualité)

Alignement

Alignement sur le génome de référence avec STAR

Quantification

Table de comptage résumée par gène

Normalisation

Méthode TMM (edgeR) pour corriger les différences de taille de librairie

Analyse Différentielle

Modèles linéaires généralisés (QL-GLM) avec edgeR

Cadre Statistique

Normalisation des Données

Les données ont été normalisées en Counts Per Million (CPM) pour corriger les différences de profondeur de séquençage :

CPM = (nombre de lectures du gène / nombre total de lectures de l'échantillon) × 10⁶

Les valeurs de CPM ont ensuite été transformées en logarithme base 2 (log₂CPM) pour stabiliser la variance et rendre les données appropriées aux analyses statistiques multivariées.

Fold Change

Le Fold Change mesure le rapport des niveaux d'expression moyens entre les deux conditions :

FC = expression moyenne ΔbrlA / expression moyenne WT

Transformation en log₂FC pour obtenir une distribution symétrique :

Correction des Comparaisons Multiples

Les p-values ont été ajustées par la méthode de Benjamini-Hochberg pour contrôler le False Discovery Rate (FDR). Le FDR correspond à la proportion attendue de faux positifs parmi les gènes déclarés significatifs.

Critères de Sélection

Seuils retenus :
  • Significativité statistique : FDR < 0,05
  • Amplitude minimale de variation : |Log₂FC| > 1

Justification des Seuils

FDR < 0,05 : Ce seuil équilibre le contrôle des faux positifs et la capacité de détection. Un seuil plus strict (FDR < 0,01) réduirait les faux positifs mais pourrait exclure des gènes biologiquement importants avec des variations modérées. Dans cette étude exploratoire visant à identifier un large ensemble de gènes candidats, ce seuil est approprié.

|Log₂FC| > 1 : Ce critère garantit que les différences identifiées sont biologiquement pertinentes (variation d'au moins un facteur 2), pas seulement statistiquement significatives. Il permet d'écarter les fluctuations de faible amplitude dues au bruit technique ou à la variabilité biologique résiduelle.

Résultats d'Exploration

Qualité des Données

L'ensemble des contrôles qualité réalisés par le workflow nf-score/rnaseq et le rapport MultiQC confirment l'absence de biais techniques majeurs dans le jeu de données fourni.

11 809 Gènes détectés (avant filtration)
10 277 Gènes exprimés (après filtration)
100% Échantillons validés

Analyse en Composantes Principales (ACP)

L'ACP a été réalisée sur les données log₂CPM pour visualiser la structure globale des données et détecter d'éventuels outliers ou effets batch.

[Figure : ACP - Scree plot des valeurs propres]

Figure 2 : Histogramme des valeurs propres. Les deux premières composantes principales expliquent 60% de la variance totale, ce qui est suffisant pour résumer de façon pertinente les variations entre individus.

[Figure : ACP - Projection des échantillons sur PC1 et PC2]

Figure 3 : Projection des 12 échantillons sur les axes PC1 (48,18%) et PC2 (11,8%). Souche sauvage (WT) | Souche mutante (ΔbrlA)

Observation clé : L'ACP révèle deux clusters parfaitement distincts correspondant aux deux conditions (WT vs ΔbrlA). Cette séparation nette selon PC1 confirme la très bonne qualité des données et la cohérence des réplicats biologiques. On observe également une plus grande variabilité inter-réplicats dans la condition mutante (dispersion le long de PC2).

Statistiques Descriptives Globales

Métrique Valeur
Moyenne des Log₂FC -0,188
Médiane des Log₂FC 0,0323
Log₂FC minimum -16,2 (gène AtWU_03937)
Log₂FC maximum +14,1 (gène AtWU_03812)

Volcano Plot

Les volcano plots permettent de visualiser simultanément la significativité statistique (FDR) et l'amplitude de variation (Log₂FC) pour l'ensemble des gènes testés.

[Figure : Volcano plot avec FDR < 0,05 et |Log₂FC| > 1]

Figure 4 : Volcano plot des gènes différentiellement exprimés (FDR < 0,05, |Log₂FC| > 1). Gènes sous-exprimés | Gènes surexprimés | Variation non significative

Observation : Le volcano plot révèle une distribution asymétrique avec une prédominance de gènes sous-exprimés dans la souche mutante, suggérant que BrlA agit principalement comme activateur transcriptionnel. Plusieurs gènes montrent des changements extrêmes (|Log₂FC| > 5), identifiant des candidats prioritaires pour les analyses fonctionnelles.

Heatmap Exploratoire

[Figure : Heatmap des distances euclidiennes entre échantillons]

Figure 5 : Heatmap des similarités entre échantillons. Les réplicats d'une même condition se regroupent fortement, confirmant la cohérence biologique et l'absence d'effets batch.

Analyse Fonctionnelle

Identification des Gènes Différentiellement Exprimés (DEGs)

1 903 DEGs totaux (FDR < 0,05, |Log₂FC| > 1)
394 DEGs annotés fonctionnellement
20,7% Taux d'annotation
Limite d'annotation : Sur les 11 000 gènes du génome d'A. tubingensis, seuls 4 089 (37%) sont annotés. Cette couverture partielle réduit notre capacité à interpréter l'ensemble des résultats, mais les 394 DEGs annotés constituent une base solide pour l'analyse fonctionnelle.

Annotation Fonctionnelle

L'annotation fonctionnelle des gènes a été réalisée par Marie-Françoise Jardinaud en utilisant deux référentiels complémentaires :

Composants Cellulaires Affectés

[Figure : Graphique GO - Composants cellulaires (par count)]

Figure 6 : Composants cellulaires enrichis parmi les DEGs. Les composants les plus affectés sont la membrane plasmique, le milieu extracellulaire et le noyau.

Interprétations :

Processus Biologiques Affectés

[Figure : Graphique GO - Processus biologiques (par count)]

Figure 7 : Processus biologiques enrichis. Les processus métaboliques des glucides, le métabolisme secondaire et les réponses aux substances toxiques sont fortement représentés.

Fonctions Moléculaires Affectées

[Figure : Graphique GO - Fonctions moléculaires (par count)]

Figure 8 : Fonctions moléculaires enrichies. Prédominance des activités oxydoréductases, hydrolases et transporteurs transmembranaires.

Heatmaps Ciblées

Section en cours de développement - heatmaps sur des gènes d'intérêt spécifiques

Discussion Critique et Perspectives

1. Synthèse des Résultats Majeurs

Section en cours de rédaction

2. Gènes Associés à la Sporulation

Analyse en cours

3. Lien Sporulation - Production de NGPs

Investigation en cours

4. Exploration du Lien Mélanisation - NGPs

Analyse en cours

5. Effets Indirects de la Mutation brlA

Le gène BrlA étant impliqué dans la croissance métabolique globale au-delà de la sporulation, une part des 1 903 DEGs identifiés pourrait refléter des effets indirects de la mutation. La distinction entre effets directs (sporulation) et indirects (métabolisme général) nécessite une analyse plus approfondie.

6. Limites de l'Analyse

Couverture d'annotation limitée

Seuls 37% des gènes du génome sont annotés, limitant l'interprétation fonctionnelle de 1 509 DEGs (79,3% des DEGs totaux)

Choix des seuils

L'utilisation de FDR < 0,05 favorise la sensibilité au détriment de la spécificité. Des validations expérimentales seront nécessaires

Contexte monocondition

L'analyse compare uniquement des conditions statiques. L'étude en conditions agitées serait nécessaire pour valider les hypothèses

7. Perspectives pour le Développement

Section en cours de rédaction

Conclusion

Cette analyse RNA-seq comparative entre souche sauvage et mutante ΔbrlA d'Aspergillus tubingensis a permis d'identifier 1 903 gènes différentiellement exprimés avec une qualité de données exceptionnelle confirmée par l'ACP. La prédominance de gènes sous-exprimés dans la souche mutante conforte le rôle d'activateur transcriptionnel du facteur BrlA dans la cascade de sporulation.

L'analyse fonctionnelle en cours révèle des altérations majeures dans les processus métaboliques, particulièrement au niveau de la membrane plasmique, du milieu extracellulaire et du noyau. Les 394 gènes annotés constituent une base solide pour approfondir l'étude du lien entre sporulation et production de NGPs.

Les résultats obtenus ouvrent la voie à des investigations plus poussées sur les voies de biosynthèse du métabolisme secondaire et sur le potentiel développement d'un bioprocédé optimisé pour la production de naphto-γ-pyrones en conditions industrielles.