These Descartes

Computational study of the phosphoester bond formation using neural network potentials

Étude computationnelle de la formation de la liaison phosphoester utilisant des champs de force réactifs appris par apprentissage profond

par Zakarya BENAYAD sous la direction de Guillaume STIRNEMANN
Thèse de doctorat en Chimie physique
ED 388 Chimie physique et chimie analytique de Paris Centre

Soutenue le vendredi 04 octobre 2024 à Université Paris Cité

Sujets

Apprentissage profond
ARN
Énergie de surface
Polymérisation
Réactivité (chimie)
Réseaux neuronaux (physiologie)

Un embargo est demandé par le doctorant jusqu'au 01 septembre 2026

Vous pouvez accéder au texte intégral de la thèse en vous authentifiant à l’aide des identifiants ENT d’Université Paris Cité, si vous en êtes membre, ou en demandant un accès extérieur, si vous pouvez justifier de de votre appartenance à un établissement français chargé d’une mission d’enseignement supérieur ou de recherche

Se connecter ou demander un accès au texte intégral

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais

Description en français

Mots clés	Réseaux de neurones, Génération de données, Echantillonnage accéléré, Surface d'énergie libre, Réactivité
Resumé	L'ARN, avec sa double capacité à stocker des informations génétiques et à catalyser des réactions chimiques, est une molécule clé pour la compréhension des origines de la vie : en effet, les formes de vie les plus anciennes pourraient avoir été basées uniquement sur l'ARN. Cependant, le processus de polymérisation de l'ARN, crucial pour l'émergence de la vie, pose un défi redoutable en l'absence de catalyseurs enzymatiques. Pour éclairer les mécanismes potentiels permettant d'accélérer cette réaction dans des conditions abiotiques, une compréhension plus approfondie du mécanisme de la réaction non catalysée est essentielle. Les données expérimentales restent rares et peu concluantes, tandis que les approches computationnelles rencontrent de nombreux obstacles. Des facteurs tels que des effets entropiques significatifs, l'implication de molécules de solvant et le grand nombre de variables collectives possiblement impliquées dans les coordonnées de réaction constituent des défis majeurs. Les champs de force basés sur les réseaux de neurones offrent une voie prometteuse, en constituant des champs de force réactifs mais avec une précision quantique. Cependant, leur utilisation pour simuler des réactions complexes en phase condensée représente un défi significatif. Dans cette thèse, nous introduisons une procédure robuste pour entraîner de tels réseaux neurones, en tirant parti de l'apprentissage actif de structures réactives à travers des méthodes d'échantillonnage avancé, combiné à une approche d'apprentissage concurrentielle bien établie. Utilisant ces réseaux de neurones, permettant désormais des simulations de plusieurs centaines de nanosecondes, nous employons des techniques d'échantillonnage avancé, notamment l'échantillonnage de chemins de transition, qui permet de discerner entre divers chemins de réaction sans devoir définir a priori des coordonnées de réaction spécifiques. Par conséquent, nous parvenons à une caractérisation sans ambiguïté de la cinétique, de la thermodynamique et du mécanisme de la réaction. Nos résultats favorisent un mécanisme dissociatif plutôt qu'associatif, indiquant la formation d'un état de transition métaphosphate avec une implication directe des molécules d'eau. Ces résultats non seulement rationalisent les résultats expérimentaux précédents, mais éclairent également la dépendance de la vitesse de réaction avec la température, offrant des perspectives pour la conception de catalyseurs abiotiques plus efficaces et de groupes activants. De plus, nous présentons un projet secondaire visant à affiner les approches d'apprentissage profond pour améliorer l'analyse des simulations d'échange de répliques. S'appuyant sur des méthodologies existantes basées sur des modèles probabilistes de diffusion (DDPM), notre apport vise à surmonter les limitations concernant la description précise de certaines régions de l'espace des phases, en particulier les régions de transition. Nous proposons une approche ciblant ces régions de transition à travers des biais appris de manière itérative. En outre, nous étendons cette méthodologie pour inclure les simulations d'échange de répliques avec échange d'Hamiltonien, élargissant son applicabilité à des biomolécules plus grandes. La validation à travers différents systèmes, allant de systèmes modèles simples comme l'alanine dipeptide à des changements conformationnels complexes dans la phosphatase, montre l'efficacité de cette méthode.

Mots clés

Réseaux de neurones, Génération de données, Echantillonnage accéléré, Surface d'énergie libre, Réactivité

Resumé

L'ARN, avec sa double capacité à stocker des informations génétiques et à catalyser des réactions chimiques, est une molécule clé pour la compréhension des origines de la vie : en effet, les formes de vie les plus anciennes pourraient avoir été basées uniquement sur l'ARN. Cependant, le processus de polymérisation de l'ARN, crucial pour l'émergence de la vie, pose un défi redoutable en l'absence de catalyseurs enzymatiques. Pour éclairer les mécanismes potentiels permettant d'accélérer cette réaction dans des conditions abiotiques, une compréhension plus approfondie du mécanisme de la réaction non catalysée est essentielle. Les données expérimentales restent rares et peu concluantes, tandis que les approches computationnelles rencontrent de nombreux obstacles. Des facteurs tels que des effets entropiques significatifs, l'implication de molécules de solvant et le grand nombre de variables collectives possiblement impliquées dans les coordonnées de réaction constituent des défis majeurs. Les champs de force basés sur les réseaux de neurones offrent une voie prometteuse, en constituant des champs de force réactifs mais avec une précision quantique. Cependant, leur utilisation pour simuler des réactions complexes en phase condensée représente un défi significatif. Dans cette thèse, nous introduisons une procédure robuste pour entraîner de tels réseaux neurones, en tirant parti de l'apprentissage actif de structures réactives à travers des méthodes d'échantillonnage avancé, combiné à une approche d'apprentissage concurrentielle bien établie. Utilisant ces réseaux de neurones, permettant désormais des simulations de plusieurs centaines de nanosecondes, nous employons des techniques d'échantillonnage avancé, notamment l'échantillonnage de chemins de transition, qui permet de discerner entre divers chemins de réaction sans devoir définir a priori des coordonnées de réaction spécifiques. Par conséquent, nous parvenons à une caractérisation sans ambiguïté de la cinétique, de la thermodynamique et du mécanisme de la réaction. Nos résultats favorisent un mécanisme dissociatif plutôt qu'associatif, indiquant la formation d'un état de transition métaphosphate avec une implication directe des molécules d'eau. Ces résultats non seulement rationalisent les résultats expérimentaux précédents, mais éclairent également la dépendance de la vitesse de réaction avec la température, offrant des perspectives pour la conception de catalyseurs abiotiques plus efficaces et de groupes activants. De plus, nous présentons un projet secondaire visant à affiner les approches d'apprentissage profond pour améliorer l'analyse des simulations d'échange de répliques. S'appuyant sur des méthodologies existantes basées sur des modèles probabilistes de diffusion (DDPM), notre apport vise à surmonter les limitations concernant la description précise de certaines régions de l'espace des phases, en particulier les régions de transition. Nous proposons une approche ciblant ces régions de transition à travers des biais appris de manière itérative. En outre, nous étendons cette méthodologie pour inclure les simulations d'échange de répliques avec échange d'Hamiltonien, élargissant son applicabilité à des biomolécules plus grandes. La validation à travers différents systèmes, allant de systèmes modèles simples comme l'alanine dipeptide à des changements conformationnels complexes dans la phosphatase, montre l'efficacité de cette méthode.